Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3801–3825 of 15113 papers

Title	Date	Tasks	Status	Score
APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	Jun 26, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	5
From Two-Dimensional to Three-Dimensional Environment with Q-Learning: Modeling Autonomous Navigation with Reinforcement Learning and no Libraries	Mar 27, 2024	Autonomous NavigationDecision Making	CodeCode Available	5
Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression	May 28, 2024	Imitation LearningMuJoCo	CodeCode Available	5
Deep Reinforcement Learning that Matters	Sep 19, 2017	Atari GamesContinuous Control	CodeCode Available	5
Hierarchical Potential-based Reward Shaping from Task Specifications	Oct 6, 2021	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available	5
Boosting Exploration in Multi-Task Reinforcement Learning using Adversarial Networks	Jan 27, 2022	Decision Makingreinforcement-learning	CodeCode Available	5
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing	Nov 10, 2018	DenoisingImage Denoising	CodeCode Available	5
From Perceptions to Decisions: Wildfire Evacuation Decision Prediction with Behavioral Theory-informed LLMs	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing	Jan 14, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight	May 20, 2025	Causal InferenceDecision Making	CodeCode Available	5
From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood	Apr 25, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
APES: a Python toolbox for simulating reinforcement learning environments	Aug 31, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Deep Reinforcement Learning with a Combinatorial Action Space for Predicting Popular Reddit Threads	Jun 12, 2016	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity?	Aug 28, 2017	DiversityDrug Discovery	CodeCode Available	5
Frequentist Regret Bounds for Randomized Least-Squares Value Iteration	Nov 1, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Deep Reinforcement Learning with a Natural Language Action Space	Nov 14, 2015	Deep Reinforcement LearningQ-Learning	CodeCode Available	5
From Credit Assignment to Entropy Regularization: Two New Algorithms for Neural Sequence Prediction	Apr 29, 2018	Predictionreinforcement-learning	CodeCode Available	5
From Gameplay to Symbolic Reasoning: Learning SAT Solver Heuristics in the Style of Alpha(Go) Zero	Feb 14, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
FREED++: Improving RL Agents for Fragment-Based Molecule Generation by Thorough Reproduction	Jan 18, 2024	Molecular DockingReinforcement Learning (RL)	CodeCode Available	5
Adjust Planning Strategies to Accommodate Reinforcement Learning Agents	Mar 19, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Free energy-based reinforcement learning using a quantum processor	May 29, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
Action Priors for Large Action Spaces in Robotics	Jan 11, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning	Jan 28, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	5
Free-Lunch Saliency via Attention in Atari Agents	Aug 7, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
From Images to Connections: Can DQN with GNNs learn the Strategic Game of Hex?	Nov 22, 2023	Board GamesInductive Bias	CodeCode Available	5

Show:10 25 50

← PrevPage 153 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified