Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3075 of 15113 papers

Title	Date	Tasks	Status	Score
Human-Level Control without Server-Grade Hardware	Nov 1, 2021	Cloud ComputingCPU	CodeCode Available	5
Count-Based Exploration with the Successor Representation	Jul 31, 2018	Atari GamesEfficient Exploration	CodeCode Available	5
Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning	Feb 10, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
Counterexample Guided RL Policy Refinement Using Bayesian Optimization	Dec 1, 2021	Bayesian OptimizationReinforcement Learning (RL)	CodeCode Available	5
Counterfactual-Augmented Importance Sampling for Semi-Offline Policy Evaluation	Oct 26, 2023	counterfactualOff-policy evaluation	CodeCode Available	5
Hybrid Reinforcement Learning with Expert State Sequences	Mar 11, 2019	Atari GamesImitation Learning	CodeCode Available	5
Constructing Non-Markovian Decision Process via History Aggregator	Jun 30, 2025	Decision MakingReinforcement Learning (RL)	CodeCode Available	5
Human-Inspired Framework to Accelerate Reinforcement Learning	Feb 28, 2023	Decision Makingreinforcement-learning	CodeCode Available	5
Reward Shaping for Human Learning via Inverse Reinforcement Learning	Feb 25, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Multi-Horizon Representations with Hierarchical Forward Models for Reinforcement Learning	Jun 22, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Counterfactual Explanation with Multi-Agent Reinforcement Learning for Drug Target Prediction	Mar 24, 2021	counterfactualCounterfactual Explanation	CodeCode Available	5
A Structured Prediction Approach for Generalization in Cooperative Multi-Agent Reinforcement Learning	Oct 19, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Human-guided Robot Behavior Learning: A GAN-assisted Preference-based Reinforcement Learning Approach	Oct 15, 2020	Generative Adversarial NetworkMuJoCo	CodeCode Available	5
Human level control through deep reinforcement learning	Feb 25, 2015	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
Counterfactual State Explanations for Reinforcement Learning Agents via Generative Deep Learning	Jan 29, 2021	counterfactualDeep Reinforcement Learning	CodeCode Available	5
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback	Jun 25, 2024	Reinforcement Learning (RL)Sentence	CodeCode Available	5
Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning	Apr 30, 2024	Reinforcement Learning (RL)Text Generation	CodeCode Available	5
Course Recommender Systems Need to Consider the Job Market	Apr 16, 2024	Recommendation SystemsReinforcement Learning (RL)	CodeCode Available	5
A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning	May 29, 2024	Continual LearningDeep Reinforcement Learning	CodeCode Available	5
Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning	Dec 30, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
HTMRL: Biologically Plausible Reinforcement Learning with Hierarchical Temporal Memory	Sep 18, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators	Oct 24, 2019	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available	5
Hybrid Reward Architecture for Reinforcement Learning	Jun 13, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
How to Build User Simulators to Train RL-based Dialog Systems	Sep 3, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
How Private Is Your RL Policy? An Inverse RL Based Analysis Framework	Dec 10, 2021	Adversarial AttackAutonomous Driving	CodeCode Available	5

Show:10 25 50

← PrevPage 123 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified