Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12751–12800 of 15113 papers

Title	Date	Tasks	Status
A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning	Dec 31, 2021	Atari GamesMeta Reinforcement Learning	CodeCode Available
On the Design of Safe Continual RL Methods for Control of Nonlinear Systems	Feb 21, 2025	Continual LearningMuJoCo	CodeCode Available
On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects	Jan 2, 2023	Reinforcement Learning (RL)	CodeCode Available
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification	Mar 23, 2021	General ClassificationReinforcement Learning (RL)	CodeCode Available
TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning	Jun 4, 2018	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
TD-Regularized Actor-Critic Methods	Dec 19, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
ReInform: Selecting paths with reinforcement learning for contextualized link prediction	Nov 19, 2022	Link PredictionPrediction	CodeCode Available
Neural-encoding Human Experts' Domain Knowledge to Warm Start Reinforcement Learning	Feb 15, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
On the calibration of compartmental epidemiological models	Dec 9, 2023	Decision MakingReinforcement Learning (RL)	CodeCode Available
Replication of Impedance Identification Experiments on a Reinforcement-Learning-Controlled Digital Twin of Human Elbows	Feb 5, 2024	Reinforcement Learning (RL)	CodeCode Available
Teach Biped Robots to Walk via Gait Principles and Reinforcement Learning with Adversarial Critics	Oct 22, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning	Nov 29, 2023	Deep Reinforcement LearningLong Form Question Answering	CodeCode Available
Project proposal: A modular reinforcement learning based automated theorem prover	Sep 6, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
SFV: Reinforcement Learning of Physical Skills from Videos	Oct 8, 2018	Deep Reinforcement LearningPose Estimation	CodeCode Available
Understanding the Evolution of Linear Regions in Deep Reinforcement Learning	Oct 24, 2022	continuous-controlContinuous Control	CodeCode Available
Shapechanger: Environments for Transfer Learning	Sep 15, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
On Solving the 2-Dimensional Greedy Shooter Problem for UAVs	Nov 2, 2019	Q-Learningreinforcement-learning	CodeCode Available
Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences	May 23, 2024	Reinforcement Learning (RL)	CodeCode Available
Shaping Advice in Deep Multi-Agent Reinforcement Learning	Mar 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Shaping Advice in Deep Reinforcement Learning	Feb 19, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
On Practical Reinforcement Learning: Provable Robustness, Scalability, and Statistical Efficiency	Mar 3, 2022	Offline RLreinforcement-learning	CodeCode Available
Representation Learning for Grounded Spatial Reasoning	Jul 13, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Teaching a Machine to Read Maps with Deep Reinforcement Learning	Nov 20, 2017	Deep Reinforcement LearningNavigate	CodeCode Available
Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning	Sep 28, 2017	Collision AvoidanceDeep Reinforcement Learning	CodeCode Available
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use	Oct 31, 2024	DiversityInformativeness	CodeCode Available
Shapley Machine: A Game-Theoretic Framework for N-Agent Ad Hoc Teamwork	Jun 12, 2025	Reinforcement Learning (RL)	CodeCode Available
Shared Autonomy via Deep Reinforcement Learning	Feb 6, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Progressive Neural Architecture Search	Dec 2, 2017	Evolutionary AlgorithmsGeneral Classification	CodeCode Available
Understanding the impact of entropy on policy optimization	Nov 27, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning with Unsupervised Auxiliary Tasks	Nov 16, 2016	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Towards optimized actions in critical situations of soccer games with deep reinforcement learning	Sep 14, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control	Aug 10, 2017	continuous-controlContinuous Control	CodeCode Available
Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout	Jan 26, 2023	MuJoCoreinforcement-learning	CodeCode Available
TEAC: Intergrating Trust Region and Max Entropy Actor Critic for Continuous Control	Jan 1, 2021	continuous-controlContinuous Control	CodeCode Available
Combining Reinforcement Learning and Tensor Networks, with an Application to Dynamical Large Deviations	Sep 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Probing the Robustness of Trained Metrics for Conversational Dialogue Systems	Feb 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
On-Policy Trust Region Policy Optimisation with Replay Buffers	Jan 18, 2019	Continuous ControlDeep Reinforcement Learning	CodeCode Available
TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning	Mar 13, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Reinforcement Learning with Success Induced Task Prioritization	Dec 30, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement Learning	Apr 19, 2021	Deep Reinforcement LearningMixture-of-Experts	CodeCode Available
Reset-free Trial-and-Error Learning for Robot Damage Recovery	Oct 13, 2016	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Value Prediction Network	Jul 11, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
Shortest Edit Path Crossover: A Theory-driven Solution to the Permutation Problem in Evolutionary Neural Architecture Search	Oct 25, 2022	Evolutionary AlgorithmsNeural Architecture Search	CodeCode Available
Residual Learning and Context Encoding for Adaptive Offline-to-Online Reinforcement Learning	Jun 12, 2024	D4RLMuJoCo	CodeCode Available
Probabilistic Counterexample Guidance for Safer Reinforcement Learning (Extended Version)	Jul 10, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Residual Loss Prediction: Reinforcement Learning With No Incremental Feedback	Jan 1, 2018	Multi-Armed BanditsPrediction	CodeCode Available
Residual Policy Learning	Dec 15, 2018	Deep Reinforcement LearningMuJoCo	CodeCode Available
What Did You Think Would Happen? Explaining Agent Behaviour Through Intended Outcomes	Nov 10, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective	May 29, 2023	Knowledge DistillationReinforcement Learning (RL)	CodeCode Available
Understanding the Safety Requirements for Learning-based Power Systems Operations	Oct 11, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available

Show:10 25 50

← PrevPage 256 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified