Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10951–10975 of 15113 papers

Title	Date	Tasks	Status
Improving Proactive Dialog Agents Using Socially-Aware Reinforcement Learning	Nov 25, 2022	reinforcement-learningReinforcement Learning	—Unverified
Toward Simulating Environments in Reinforcement Learning Based Recommendations	Jun 27, 2019	Generative Adversarial NetworkRecommendation Systems	—Unverified
Towards Infant Sleep-Optimized Driving: Synergizing Wearable and Vehicle Sensing in Intelligent Cruise Control	Jun 6, 2025	Reinforcement Learning (RL)Sleep Quality	—Unverified
Towards Information-Seeking Agents	Dec 8, 2016	reinforcement-learningReinforcement Learning	—Unverified
Towards Instance-Optimal Offline Reinforcement Learning with Pessimism	Oct 17, 2021	Offline RLreinforcement-learning	—Unverified
Towards Intelligent Pick and Place Assembly of Individualized Products Using Reinforcement Learning	Feb 11, 2020	Meta-Learningreinforcement-learning	—Unverified
Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning	Mar 30, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Towards intervention-centric causal reasoning in learning agents	May 26, 2020	Deep Reinforcement LearningMeta-Learning	—Unverified
Towards Interactive Reinforcement Learning with Intrinsic Feedback	Dec 2, 2021	reinforcement-learningReinforcement Learning	—Unverified
Towards Inverse Reinforcement Learning for Limit Order Book Dynamics	Jun 11, 2019	reinforcement-learningReinforcement Learning	—Unverified
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models	Jan 16, 2025	Reinforcement Learning (RL)	—Unverified
Towards Learning Abstractions via Reinforcement Learning	Dec 28, 2022	reinforcement-learningReinforcement Learning	—Unverified
Towards Learning-automation IoT Attack Detection through Reinforcement Learning	Jun 29, 2020	reinforcement-learningReinforcement Learning	—Unverified
Towards Learning Controllable Representations of Physical Systems	Nov 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning	Jan 28, 2023	reinforcement-learningReinforcement Learning	—Unverified
Towards Learning to Play Piano with Dexterous Hands and Touch	Jun 3, 2021	Reinforcement Learning (RL)	—Unverified
Towards Learning to Speak and Hear Through Multi-Agent Communication over a Continuous Acoustic Channel	Nov 4, 2021	Language AcquisitionMulti-agent Reinforcement Learning	—Unverified
Towards Machines that Trust: AI Agents Learn to Trust in the Trust Game	Dec 20, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Towards Measuring Goal-Directedness in AI Systems	Oct 7, 2024	Reinforcement Learning (RL)	—Unverified
Towards Minimax Optimality of Model-based Robust Reinforcement Learning	Feb 10, 2023	reinforcement-learningReinforcement Learning	—Unverified
Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes	Jun 24, 2020	reinforcement-learningReinforcement Learning	—Unverified
Towards Mixed Optimization for Reinforcement Learning with Program Synthesis	Jul 1, 2018	Deep Reinforcement LearningProgram Repair	—Unverified
Towards model-free RL algorithms that scale well with unstructured data	Nov 3, 2023	Reinforcement Learning (RL)	—Unverified
Towards Modern Card Games with Large-Scale Action Spaces Through Action Representation	Jun 25, 2022	Card Gamesreinforcement-learning	—Unverified
Towards Modular Algorithm Induction	Feb 27, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 439 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified