Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2201–2225 of 15113 papers

Title	Date	Tasks	Status	Hype
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning	Feb 26, 2025	In-Context Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Distilling Reinforcement Learning Tricks for Video Games	Jul 1, 2021	Q-Learningreinforcement-learning	CodeCode Available	1
A Deep Reinforcement Learning Algorithm Using Dynamic Attention Model for Vehicle Routing Problems	Feb 9, 2020	Combinatorial OptimizationDecoder	CodeCode Available	1
Distributed Heuristic Multi-Agent Path Finding with Communication	Jun 21, 2021	Multi-Agent Path FindingQ-Learning	CodeCode Available	1
Comparing Popular Simulation Environments in the Scope of Robotics and Reinforcement Learning	Mar 8, 2021	CPUreinforcement-learning	CodeCode Available	1
CaiRL: A High-Performance Reinforcement Learning Environment Toolkit	Oct 3, 2022	OpenAI Gymreinforcement-learning	CodeCode Available	1
Diversify Question Generation with Retrieval-Augmented Style Transfer	Oct 23, 2023	DiversityQuestion Answering	CodeCode Available	1
Diversity is All You Need: Learning Skills without a Reward Function	Feb 16, 2018	AllDiversity	CodeCode Available	1
Reinforcement Learning in High-frequency Market Making	Jul 14, 2024	Q-Learningreinforcement-learning	CodeCode Available	1
DNA: Proximal Policy Optimization with a Dual Network Architecture	Jun 20, 2022	Atari GamesReinforcement Learning (RL)	CodeCode Available	1
Communicative Reinforcement Learning Agents for Landmark Detection in Brain Images	Aug 18, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
Does Zero-Shot Reinforcement Learning Exist?	Sep 29, 2022	Contrastive Learningreinforcement-learning	CodeCode Available	1
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs	May 19, 2025	Reinforcement Learning (RL)	CodeCode Available	1
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning	Jan 31, 2022	DiversityOffline RL	CodeCode Available	1
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist	Aug 6, 2021	Reinforcement Learning (RL)	CodeCode Available	1
Competitiveness of MAP-Elites against Proximal Policy Optimization on locomotion tasks in deterministic simulations	Sep 17, 2020	Evolutionary AlgorithmsReinforcement Learning (RL)	CodeCode Available	1
Drafting in Collectible Card Games via Reinforcement Learning	Nov 7, 2020	Card GamesDeep Reinforcement Learning	CodeCode Available	1
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient	Oct 11, 2024	MambaModel-based Reinforcement Learning	CodeCode Available	1
Compound AI Systems Optimization: A Survey of Methods, Challenges, and Future Directions	Jun 9, 2025	Reinforcement Learning (RL)	CodeCode Available	1
DreamShard: Generalizable Embedding Table Placement for Recommender Systems	Oct 5, 2022	GPURecommendation Systems	CodeCode Available	1
Driver Dojo: A Benchmark for Generalizable Reinforcement Learning for Autonomous Driving	Jul 23, 2022	Autonomous Drivingreinforcement-learning	CodeCode Available	1
DRL4Route: A Deep Reinforcement Learning Framework for Pick-up and Delivery Route Prediction	Jul 30, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning	Jun 10, 2025	Large Language Modelreinforcement-learning	CodeCode Available	1
Dropout Q-Functions for Doubly Efficient Reinforcement Learning	Oct 5, 2021	Computational EfficiencyQ-Learning	CodeCode Available	1
Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning	Apr 25, 2023	D4RLImage Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 89 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified