Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6976–7000 of 15113 papers

Title	Date	Tasks	Status
Understanding the Relation Between Maximum-Entropy Inverse Reinforcement Learning and Behaviour Cloning	Mar 27, 2019	continuous-controlContinuous Control	—Unverified
Understanding the Synergies between Quality-Diversity and Deep Reinforcement Learning	Mar 10, 2023	Deep Reinforcement LearningDiversity	—Unverified
Understanding the World to Solve Social Dilemmas Using Multi-Agent Reinforcement Learning	May 19, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning	Feb 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence	Feb 5, 2024	continuous-controlContinuous Control	—Unverified
Undirected Machine Translation with Discriminative Reinforcement Learning	Apr 1, 2014	Language ModellingMachine Translation	—Unverified
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning	Oct 6, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
UNEX-RL: Reinforcing Long-Term Rewards in Multi-Stage Recommender Systems with UNidirectional EXecution	Jan 12, 2024	Multi-agent Reinforcement LearningRecommendation Systems	—Unverified
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified
UniCon: Universal Neural Controller For Physics-based Character Motion	Nov 30, 2020	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond	Sep 23, 2022	PAC learningReinforcement Learning (RL)	—Unverified
Unified Conversational Recommendation Policy Learning via Graph-based Reinforcement Learning	May 20, 2021	AttributeConversational Recommendation	—Unverified
Unified Emulation-Simulation Training Environment for Autonomous Cyber Agents	Apr 3, 2023	Deep Reinforcement LearningOffline RL	—Unverified
Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds	Mar 12, 2025	Deep Reinforcement LearningKnowledge Distillation	—Unverified
Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games	Aug 19, 2022	MuJoCoReinforcement Learning (RL)	—Unverified
Unified Reinforcement Q-Learning for Mean Field Game and Control Problems	Jun 24, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation	Jun 22, 2021	reinforcement-learningReinforcement Learning	—Unverified
Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension	May 15, 2023	Open-Ended Question AnsweringReinforcement Learning (RL)	—Unverified
Uniform State Abstraction For Reinforcement Learning	Apr 6, 2020	continuous-controlContinuous Control	—Unverified
Unifying Causal Inference and Reinforcement Learning using Higher-Order Category Theory	Sep 13, 2022	Causal Inferencereinforcement-learning	—Unverified
Unifying Ensemble Methods for Q-learning via Social Choice Theory	Feb 27, 2019	DiversityQ-Learning	—Unverified
Unifying task specification in reinforcement learning	Sep 7, 2016	reinforcement-learningReinforcement Learning	—Unverified
Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming	Oct 30, 2017	reinforcement-learningReinforcement Learning	—Unverified
Universal Activation Function For Machine Learning	Nov 7, 2020	BIG-bench Machine LearningGeneral Classification	—Unverified
Universal Agent for Disentangling Environments and Tasks	Jan 1, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 280 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified