Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
CaRL: Learning Scalable Planning Policies with Simple Rewards	Apr 24, 2025	Autonomous DrivingCARLA longest6	CodeCode Available	2	5
CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning	Apr 18, 2022	ChatbotOffline RL	CodeCode Available	2	5
DiffMimic: Efficient Motion Mimicking with Differentiable Physics	Apr 6, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	2	5
MBRL-Lib: A Modular Library for Model-based Reinforcement Learning	Apr 20, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	2	5
DIAMBRA Arena: a New Reinforcement Learning Platform for Research and Experimentation	Oct 19, 2022	Deep Reinforcement LearningImitation Learning	CodeCode Available	2	5
A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement Learning	Aug 5, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	2	5
AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers	Nov 17, 2024	In-Context LearningMeta-Learning	CodeCode Available	2	5
Dialogue Learning With Human-In-The-Loop	Nov 29, 2016	Question Answeringreinforcement-learning	CodeCode Available	2	5
Diffusion Actor-Critic with Entropy Regulator	May 24, 2024	Decision MakingMuJoCo	CodeCode Available	2	5
Model-agnostic and Scalable Counterfactual Explanations via Reinforcement Learning	Jun 4, 2021	counterfactualDeep Reinforcement Learning	CodeCode Available	2	5
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning	Dec 11, 2021	Deep Reinforcement LearningGPU	CodeCode Available	2	5
MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning	Jul 23, 2024	BenchmarkingDecision Making	CodeCode Available	2	5
Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot	Feb 20, 2023	Efficient Explorationreinforcement-learning	CodeCode Available	2	5
A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning	Dec 12, 2010	Bayesian OptimizationHierarchical Reinforcement Learning	CodeCode Available	2	5
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem	May 30, 2022	Decision MakingMuJoCo	CodeCode Available	2	5
GenRL: Multimodal-foundation world models for generalization in embodied agents	Jun 26, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available	2	5
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems	May 30, 2022	Diversityreinforcement-learning	CodeCode Available	2	5
Revocable Deep Reinforcement Learning with Affinity Regularization for Outlier-Robust Graph Matching	Dec 16, 2020	Combinatorial OptimizationDecision Making	CodeCode Available	2	5
AndroidEnv: A Reinforcement Learning Platform for Android	May 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	2	5
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations	Jun 9, 2022	Benchmarkingcontinuous-control	CodeCode Available	2	5
Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models	May 30, 2018	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	2	5
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning	Oct 28, 2024	Benchmarkingreinforcement-learning	CodeCode Available	2	5
Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent Reinforcement Learning	Feb 1, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	2	5
A Toolkit for Reliable Benchmarking and Research in Multi-Objective Reinforcement Learning	Sep 26, 2023	BenchmarkingMulti-Objective Reinforcement Learning	CodeCode Available	2	5
Deep Reinforcement Learning for Multi-Agent Interaction	Aug 2, 2022	BIG-bench Machine LearningCausal Inference	CodeCode Available	2	5
Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management	Feb 1, 2024	Deep Reinforcement LearningManagement	CodeCode Available	2	5
D4RL: Datasets for Deep Data-Driven Reinforcement Learning	Apr 15, 2020	D4RLOffline RL	CodeCode Available	2	5
Assessment of Reinforcement Learning for Macro Placement	Feb 21, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	2	5
DayDreamer: World Models for Physical Robot Learning	Jun 28, 2022	Deep Reinforcement LearningNavigate	CodeCode Available	2	5
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning	Mar 20, 2025	ClassificationFew-Shot Learning	CodeCode Available	2	5
Optimizing Anytime Reasoning via Budget Relative Policy Optimization	May 19, 2025	Mathematical ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data	Jul 23, 2024	Autonomous DrivingAutonomous Racing	CodeCode Available	2	5
Datasets and Benchmarks for Offline Safe Reinforcement Learning	Jun 15, 2023	Autonomous DrivingBenchmarking	CodeCode Available	2	5
Decoupling Representation Learning from Reinforcement Learning	Sep 14, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	2	5
Craftium: An Extensible Framework for Creating Reinforcement Learning Environments	Jul 4, 2024	BenchmarkingMinecraft	CodeCode Available	2	5
CTR-Driven Advertising Image Generation with Multimodal Large Language Models	Feb 5, 2025	Image GenerationReinforcement Learning (RL)	CodeCode Available	2	5
A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges	Nov 12, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	2	5
Curiosity-driven Red-teaming for Large Language Models	Feb 29, 2024	Red TeamingReinforcement Learning (RL)	CodeCode Available	2	5
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning	Apr 17, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning	Sep 18, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	2	5
Physics-based Deep Learning	Sep 11, 2021	Deep LearningPhysical Simulations	CodeCode Available	2	5
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning	Sep 27, 2024	AutoMLBenchmarking	CodeCode Available	1	5
A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning	Oct 10, 2022	Data Augmentationreinforcement-learning	CodeCode Available	1	5
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1	5
A Composable Specification Language for Reinforcement Learning Tasks	Aug 21, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
A Boolean Task Algebra for Reinforcement Learning	Jan 6, 2020	Lifelong learningNegation	CodeCode Available	1	5
ARLO: A Framework for Automated Reinforcement Learning	May 20, 2022	feature selectionMuJoCo	CodeCode Available	1	5
Control-Informed Reinforcement Learning for Chemical Processes	Aug 24, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems	May 18, 2023	Recommendation Systemsreinforcement-learning	CodeCode Available	1	5
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1	5

Show:10 25 50

← PrevPage 8 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified