Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2201–2250 of 15113 papers

Title	Date	Tasks	Status	Hype
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning	Feb 26, 2025	In-Context Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Distilling Reinforcement Learning Tricks for Video Games	Jul 1, 2021	Q-Learningreinforcement-learning	CodeCode Available	1
A Deep Reinforcement Learning Algorithm Using Dynamic Attention Model for Vehicle Routing Problems	Feb 9, 2020	Combinatorial OptimizationDecoder	CodeCode Available	1
Distributed Heuristic Multi-Agent Path Finding with Communication	Jun 21, 2021	Multi-Agent Path FindingQ-Learning	CodeCode Available	1
CompoSuite: A Compositional Reinforcement Learning Benchmark	Jul 8, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow	Mar 26, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Diversify Question Generation with Retrieval-Augmented Style Transfer	Oct 23, 2023	DiversityQuestion Answering	CodeCode Available	1
Diversity is All You Need: Learning Skills without a Reward Function	Feb 16, 2018	AllDiversity	CodeCode Available	1
Compound AI Systems Optimization: A Survey of Methods, Challenges, and Future Directions	Jun 9, 2025	Reinforcement Learning (RL)	CodeCode Available	1
DNA: Proximal Policy Optimization with a Dual Network Architecture	Jun 20, 2022	Atari GamesReinforcement Learning (RL)	CodeCode Available	1
Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning	Jun 7, 2021	Multi-agent Reinforcement LearningOffline RL	CodeCode Available	1
Does Zero-Shot Reinforcement Learning Exist?	Sep 29, 2022	Contrastive Learningreinforcement-learning	CodeCode Available	1
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs	May 19, 2025	Reinforcement Learning (RL)	CodeCode Available	1
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning	Jan 31, 2022	DiversityOffline RL	CodeCode Available	1
Compile Scene Graphs with Reinforcement Learning	Apr 18, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1
DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems	May 27, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1
Dream and Search to Control: Latent Space Planning for Continuous Control	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1
DreamShard: Generalizable Embedding Table Placement for Recommender Systems	Oct 5, 2022	GPURecommendation Systems	CodeCode Available	1
Dream to Control: Learning Behaviors by Latent Imagination	Dec 3, 2019	Continuous Controlreinforcement-learning	CodeCode Available	1
Compositional Reinforcement Learning from Logical Specifications	Jun 25, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
DRLComplex: Reconstruction of protein quaternary structures using deep reinforcement learning	May 26, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Computational Performance of Deep Reinforcement Learning to find Nash Equilibria	Apr 26, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
CADRE: A Cascade Deep Reinforcement Learning Framework for Vision-based Autonomous Urban Driving	Feb 17, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
B-Pref: Benchmarking Preference-Based Reinforcement Learning	Nov 4, 2021	Benchmarkingreinforcement-learning	CodeCode Available	1
DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime	May 28, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available	1
Bridging RL Theory and Practice with the Effective Horizon	Apr 19, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Competitiveness of MAP-Elites against Proximal Policy Optimization on locomotion tasks in deterministic simulations	Sep 17, 2020	Evolutionary AlgorithmsReinforcement Learning (RL)	CodeCode Available	1
DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in Continuous Control	Sep 9, 2020	continuous-controlContinuous Control	CodeCode Available	1
EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL	Jun 20, 2022	Question AnsweringQuestion Generation	CodeCode Available	1
A Crash Course on Reinforcement Learning	Mar 8, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining	Apr 10, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	1
An Experimental Design Perspective on Model-Based Reinforcement Learning	Dec 9, 2021	continuous-controlContinuous Control	CodeCode Available	1
Reinforcement Learning in High-frequency Market Making	Jul 14, 2024	Q-Learningreinforcement-learning	CodeCode Available	1
Effective Diversity in Population Based Reinforcement Learning	Feb 3, 2020	DiversityPoint Processes	CodeCode Available	1
Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning	Aug 30, 2022	Cloud ComputingDeep Reinforcement Learning	CodeCode Available	1
Efficient Active Search for Combinatorial Optimization Problems	Jun 9, 2021	BIG-bench Machine LearningCombinatorial Optimization	CodeCode Available	1
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning	Oct 23, 2020	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	1
Compiler Optimization for Quantum Computing Using Reinforcement Learning	Dec 8, 2022	Compiler Optimizationreinforcement-learning	CodeCode Available	1
Efficient Pressure: Improving efficiency for signalized intersections	Dec 4, 2021	Reinforcement Learning (RL)Traffic Signal Control	CodeCode Available	1
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate	May 24, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Concise Reasoning via Reinforcement Learning	Apr 7, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Symptom Inquiring and Diagnosis via Adaptive Alignment of Reinforcement Learning and Classification	Dec 1, 2021	Decision MakingDiagnostic	CodeCode Available	1
Constrained episodic reinforcement learning in concave-convex and knapsack settings	Jun 9, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Wasserstein Natural Gradients for Reinforcement Learning	Oct 12, 2020	Policy Gradient Methodsreinforcement-learning	CodeCode Available	1
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1
DataLight: Offline Data-Driven Traffic Signal Control	Mar 20, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Evolutionary Planning in Latent Space	Nov 23, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings	Nov 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1

Show:10 25 50

← PrevPage 45 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified