SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3681–3690 of 15113 papers

Title	Date	Tasks	Status	Hype
Graph Reinforcement Learning for Operator Selection in the ALNS Metaheuristic	Feb 28, 2023	Deep Reinforcement LearningOpen-Ended Question Answering	—Unverified	0
Auxiliary Task-based Deep Reinforcement Learning for Quantum Control	Feb 28, 2023	continuous-controlContinuous Control	—Unverified	0
Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization	Feb 28, 2023	Efficient ExplorationReinforcement Learning (RL)	—Unverified	0
Minimizing the Outage Probability in a Markov Decision Process	Feb 28, 2023	Q-Learningreinforcement-learning	—Unverified	0
Exploiting Multiple Abstractions in Episodic RL via Reward Shaping	Feb 28, 2023	Reinforcement Learning (RL)	CodeCode Available	0
Multi-Agent Reinforcement Learning for Pragmatic Communication and Control	Feb 28, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified	0
Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning	Feb 28, 2023	Offline RLreinforcement-learning	CodeCode Available	0
AR3n: A Reinforcement Learning-based Assist-As-Needed Controller for Robotic Rehabilitation	Feb 28, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Hierarchical Reinforcement Learning in Complex 3D Environments	Feb 28, 2023	Deep Reinforcement LearningHierarchical Reinforcement Learning	—Unverified	0
The In-Sample Softmax for Offline Reinforcement Learning	Feb 28, 2023	Offline RLreinforcement-learning	CodeCode Available	1

Show:10 25 50

← PrevPage 369 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified