Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2126–2150 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets	Oct 6, 2023	D4RLDecision Making	CodeCode Available	1	5
Reinforcement Learning Friendly Vision-Language Model for Minecraft	Mar 19, 2023	Contrastive LearningLanguage Modeling	CodeCode Available	1	5
Clinician-in-the-Loop Decision Making: Reinforcement Learning with Near-Optimal Set-Valued Policies	Jul 24, 2020	Decision MakingReinforcement Learning (RL)	CodeCode Available	1	5
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality	Jun 24, 2025	HallucinationHallucination Evaluation	CodeCode Available	1	5
Know Your Action Set: Learning Action Relations for Reinforcement Learning	Sep 29, 2021	Graph AttentionRecommendation Systems	CodeCode Available	1	5
Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks	Oct 27, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1	5
Learning safety in model-based Reinforcement Learning using MPC and Gaussian Processes	Nov 3, 2022	Gaussian ProcessesModel-based Reinforcement Learning	CodeCode Available	1	5
Closed Loop Neural-Symbolic Learning via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning	Jun 11, 2020	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1	5
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View	Jan 20, 2024	Data AugmentationReinforcement Learning (RL)	CodeCode Available	1	5
Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition	May 18, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Co-Activation Graph Analysis of Safety-Verified and Explainable Deep Reinforcement Learning Policies	Jan 6, 2025	Decision MakingDeep Reinforcement Learning	CodeCode Available	1	5
Learning Synthetic Environments and Reward Networks for Reinforcement Learning	Feb 6, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Bidirectional Model-based Policy Optimization	Jul 4, 2020	Decision Makingmodel	CodeCode Available	1	5
B-Pref: Benchmarking Preference-Based Reinforcement Learning	Nov 4, 2021	Benchmarkingreinforcement-learning	CodeCode Available	1	5
Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement Learning	Apr 18, 2021	Keyphrase Generationreinforcement-learning	CodeCode Available	1	5
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors	Jan 9, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task Environments	Dec 1, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1	5
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning	May 22, 2024	Knowledge Graphsreinforcement-learning	CodeCode Available	1	5
Jump-Start Reinforcement Learning	Apr 5, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Learning to combine primitive skills: A step towards versatile robotic manipulation	Aug 2, 2019	Data AugmentationImitation Learning	CodeCode Available	1	5
Boosting Soft Actor-Critic: Emphasizing Recent Experience without Forgetting the Past	Jun 10, 2019	Deep Reinforcement LearningMuJoCo	CodeCode Available	1	5
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning	May 12, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
Collaborative Multi-Agent Dialogue Model Training Via Reinforcement Learning	Jul 11, 2019	Natural Language Understandingreinforcement-learning	CodeCode Available	1	5
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1	5
BOME! Bilevel Optimization Made Easy: A Simple First-Order Approach	Sep 19, 2022	Bilevel OptimizationContinual Learning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 86 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified