Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2226–2250 of 15113 papers

Title	Date	Tasks	Status	Hype
DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime	May 28, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available	1
Bridging RL Theory and Practice with the Effective Horizon	Apr 19, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Competitiveness of MAP-Elites against Proximal Policy Optimization on locomotion tasks in deterministic simulations	Sep 17, 2020	Evolutionary AlgorithmsReinforcement Learning (RL)	CodeCode Available	1
DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in Continuous Control	Sep 9, 2020	continuous-controlContinuous Control	CodeCode Available	1
EAGER: Asking and Answering Questions for Automatic Reward Shaping in Language-guided RL	Jun 20, 2022	Question AnsweringQuestion Generation	CodeCode Available	1
A Crash Course on Reinforcement Learning	Mar 8, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining	Apr 10, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	1
An Experimental Design Perspective on Model-Based Reinforcement Learning	Dec 9, 2021	continuous-controlContinuous Control	CodeCode Available	1
Reinforcement Learning in High-frequency Market Making	Jul 14, 2024	Q-Learningreinforcement-learning	CodeCode Available	1
Effective Diversity in Population Based Reinforcement Learning	Feb 3, 2020	DiversityPoint Processes	CodeCode Available	1
Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning	Aug 30, 2022	Cloud ComputingDeep Reinforcement Learning	CodeCode Available	1
Efficient Active Search for Combinatorial Optimization Problems	Jun 9, 2021	BIG-bench Machine LearningCombinatorial Optimization	CodeCode Available	1
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning	Oct 23, 2020	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	1
Compiler Optimization for Quantum Computing Using Reinforcement Learning	Dec 8, 2022	Compiler Optimizationreinforcement-learning	CodeCode Available	1
Efficient Pressure: Improving efficiency for signalized intersections	Dec 4, 2021	Reinforcement Learning (RL)Traffic Signal Control	CodeCode Available	1
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate	May 24, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Concise Reasoning via Reinforcement Learning	Apr 7, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Symptom Inquiring and Diagnosis via Adaptive Alignment of Reinforcement Learning and Classification	Dec 1, 2021	Decision MakingDiagnostic	CodeCode Available	1
Constrained episodic reinforcement learning in concave-convex and knapsack settings	Jun 9, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient Wasserstein Natural Gradients for Reinforcement Learning	Oct 12, 2020	Policy Gradient Methodsreinforcement-learning	CodeCode Available	1
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1
DataLight: Offline Data-Driven Traffic Signal Control	Mar 20, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Evolutionary Planning in Latent Space	Nov 23, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings	Nov 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1

Show:10 25 50

← PrevPage 90 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified