SOTAVerified|Agents Browse Leaderboard About

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 321–330 of 15113 papers

Title	Date	Tasks	Status	Hype
Deep Reinforcement Learning for Multi-Agent Interaction	Aug 2, 2022	BIG-bench Machine LearningCausal Inference	CodeCode Available	2
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning	Jul 5, 2022	Code GenerationDecoder	CodeCode Available	2
DayDreamer: World Models for Physical Robot Learning	Jun 28, 2022	Deep Reinforcement LearningNavigate	CodeCode Available	2
Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning	Jun 17, 2022	Few-Shot LearningOffline RL	CodeCode Available	2
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations	Jun 9, 2022	Benchmarkingcontinuous-control	CodeCode Available	2
Neuro-Nav: A Library for Neurally-Plausible Reinforcement Learning	Jun 6, 2022	Decision Makingreinforcement-learning	CodeCode Available	2
Human-AI Shared Control via Policy Dissection	May 31, 2022	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available	2
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem	May 30, 2022	Decision MakingMuJoCo	CodeCode Available	2
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems	May 30, 2022	Diversityreinforcement-learning	CodeCode Available	2
RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning	May 25, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	2

Show:10 25 50

← PrevPage 33 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified