Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–775 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
A Text-based Deep Reinforcement Learning Framework for Interactive Recommendation	Apr 14, 2020	Deep Reinforcement LearningInteractive Recommendation	CodeCode Available	1	5
Deep reinforcement learning-designed radiofrequency waveform in MRI	May 7, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Adversarially Trained Actor Critic for Offline Reinforcement Learning	Feb 5, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search	May 19, 2022	Decision MakingImage Captioning	CodeCode Available	1	5
Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress	Jun 3, 2022	Atari GamesHumanoid Control	CodeCode Available	1	5
Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes	Oct 12, 2021	Offline RLReinforcement Learning (RL)	CodeCode Available	1	5
Beyond The Rainbow: High Performance Deep Reinforcement Learning on a Desktop PC	Nov 6, 2024	Computational EfficiencyDeep Reinforcement Learning	CodeCode Available	1	5
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets	Oct 6, 2023	D4RLDecision Making	CodeCode Available	1	5
A Traffic Light Dynamic Control Algorithm with Deep Reinforcement Learning Based on GNN Prediction	Sep 29, 2020	Deep Reinforcement LearningGraph Neural Network	CodeCode Available	1	5
Deep RL Agent for a Real-Time Action Strategy Game	Feb 15, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
DROPO: Sim-to-Real Transfer with Offline Domain Randomization	Jan 20, 2022	Reinforcement Learning (RL)	CodeCode Available	1	5
Bidirectional Model-based Policy Optimization	Jul 4, 2020	Decision Makingmodel	CodeCode Available	1	5
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning	Jun 2, 2022	Partially Observable Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
BIMRL: Brain Inspired Meta Reinforcement Learning	Oct 29, 2022	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information	Oct 31, 2022	Offline RLReinforcement Learning (RL)	CodeCode Available	1	5
Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning	Feb 8, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Asynchronous Methods for Deep Reinforcement Learning	Feb 4, 2016	Atari GamesCPU	CodeCode Available	1	5
Tactical Optimism and Pessimism for Deep Reinforcement Learning	Feb 7, 2021	continuous-controlContinuous Control	CodeCode Available	1	5
Deep Reinforcement Learning with Gradient Eligibility Traces	Jul 12, 2025	Deep Reinforcement LearningMuJoCo	CodeCode Available	1	5
A Sustainable Ecosystem through Emergent Cooperation in Multi-Agent Reinforcement Learning	Jul 19, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
A SWAT-based Reinforcement Learning Framework for Crop Management	Feb 10, 2023	BenchmarkingDecision Making	CodeCode Available	1	5
B-Pref: Benchmarking Preference-Based Reinforcement Learning	Nov 4, 2021	Benchmarkingreinforcement-learning	CodeCode Available	1	5
Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration	Jan 9, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
EDGE: Explaining Deep Reinforcement Learning Policies	Dec 1, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1	5
Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1	5

Show:10 25 50

← PrevPage 31 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified