Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11201–11250 of 15113 papers

Title	Date	Tasks	Status
A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings	Jun 16, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Understanding Deep Neural Function Approximation in Reinforcement Learning via ε-Greedy Exploration	Sep 15, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Understanding End-to-End Model-Based Reinforcement Learning Methods as Implicit Parameterization	Dec 1, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Understanding & Generalizing AlphaGo Zero	May 1, 2019	Decision Makingreinforcement-learning	—Unverified
Understanding Hindsight Goal Relabeling from a Divergence Minimization Perspective	Sep 26, 2022	Imitation LearningMulti-Goal Reinforcement Learning	—Unverified
The Importance of Online Data: Understanding Preference Fine-tuning via Coverage	Jun 3, 2024	Reinforcement Learning (RL)	—Unverified
Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization	Mar 31, 2023	Offline RLQ-Learning	—Unverified
Understanding Self-Predictive Learning for Reinforcement Learning	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Understanding the Complexity Gains of Single-Task RL with a Curriculum	Dec 24, 2022	Reinforcement Learning (RL)	—Unverified
Understanding the Generalization Gap in Visual Reinforcement Learning	Sep 29, 2021	Data AugmentationDeep Reinforcement Learning	—Unverified
Understanding the Limits of Poisoning Attacks in Episodic Reinforcement Learning	Aug 29, 2022	reinforcement-learningReinforcement Learning	—Unverified
Understanding the Pathologies of Approximate Policy Evaluation when Combined with Greedification in Reinforcement Learning	Oct 28, 2020	Reinforcement Learning (RL)	—Unverified
Understanding the Relation Between Maximum-Entropy Inverse Reinforcement Learning and Behaviour Cloning	Mar 27, 2019	continuous-controlContinuous Control	—Unverified
Understanding the Synergies between Quality-Diversity and Deep Reinforcement Learning	Mar 10, 2023	Deep Reinforcement LearningDiversity	—Unverified
Understanding the World to Solve Social Dilemmas Using Multi-Agent Reinforcement Learning	May 19, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning	Feb 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence	Feb 5, 2024	continuous-controlContinuous Control	—Unverified
Undirected Machine Translation with Discriminative Reinforcement Learning	Apr 1, 2014	Language ModellingMachine Translation	—Unverified
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning	Oct 6, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
UNEX-RL: Reinforcing Long-Term Rewards in Multi-Stage Recommender Systems with UNidirectional EXecution	Jan 12, 2024	Multi-agent Reinforcement LearningRecommendation Systems	—Unverified
Reinforcement Learning in Credit Scoring and Underwriting	Dec 15, 2022	Decision MakingEfficient Exploration	—Unverified
UniCon: Universal Neural Controller For Physics-based Character Motion	Nov 30, 2020	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond	Sep 23, 2022	PAC learningReinforcement Learning (RL)	—Unverified
Unified Conversational Recommendation Policy Learning via Graph-based Reinforcement Learning	May 20, 2021	AttributeConversational Recommendation	—Unverified
Unified Emulation-Simulation Training Environment for Autonomous Cyber Agents	Apr 3, 2023	Deep Reinforcement LearningOffline RL	—Unverified
Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds	Mar 12, 2025	Deep Reinforcement LearningKnowledge Distillation	—Unverified
Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games	Aug 19, 2022	MuJoCoReinforcement Learning (RL)	—Unverified
Unified Reinforcement Q-Learning for Mean Field Game and Control Problems	Jun 24, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation	Jun 22, 2021	reinforcement-learningReinforcement Learning	—Unverified
Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension	May 15, 2023	Open-Ended Question AnsweringReinforcement Learning (RL)	—Unverified
Uniform State Abstraction For Reinforcement Learning	Apr 6, 2020	continuous-controlContinuous Control	—Unverified
Unifying Causal Inference and Reinforcement Learning using Higher-Order Category Theory	Sep 13, 2022	Causal Inferencereinforcement-learning	—Unverified
Unifying Ensemble Methods for Q-learning via Social Choice Theory	Feb 27, 2019	DiversityQ-Learning	—Unverified
Unifying task specification in reinforcement learning	Sep 7, 2016	reinforcement-learningReinforcement Learning	—Unverified
Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming	Oct 30, 2017	reinforcement-learningReinforcement Learning	—Unverified
Universal Activation Function For Machine Learning	Nov 7, 2020	BIG-bench Machine LearningGeneral Classification	—Unverified
Universal Agent for Disentangling Environments and Tasks	Jan 1, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Universal Agent Mixtures and the Geometry of Intelligence	Feb 13, 2023	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
Universal Distributional Decision-based Black-box Adversarial Attack with Reinforcement Learning	Nov 15, 2022	Adversarial Attackreinforcement-learning	—Unverified
Universal Learning Waveform Selection Strategies for Adaptive Target Tracking	Feb 10, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Universal Successor Features Based Deep Reinforcement Learning for Navigation	Jun 17, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Universal Successor Features for Transfer Reinforcement Learning	Jan 5, 2020	MuJoCoreinforcement-learning	—Unverified
Universal Successor Representations for Transfer Reinforcement Learning	Apr 11, 2018	reinforcement-learningReinforcement Learning	—Unverified
Universal Trading for Order Execution with Oracle Policy Distillation	Jan 28, 2021	Algorithmic Tradingreinforcement-learning	—Unverified
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
UniZero: Generalized and Efficient Planning with Scalable Latent World Models	Jun 15, 2024	Multi-Task LearningReinforcement Learning (RL)	—Unverified
Unlearning Works Better Than You Think: Local Reinforcement-Based Selection of Auxiliary Objectives	Apr 19, 2025	Reinforcement Learning (RL)	—Unverified
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem	Jun 3, 2025	GPUMath	—Unverified
Unlocking Pixels for Reinforcement Learning via Implicit Attention	Feb 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
Unlocking the Potential of Simulators: Design with RL in Mind	Jun 8, 2017	Decision MakingFriction	—Unverified

Show:10 25 50

← PrevPage 225 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified