SOTAVerified|Agents Browse Leaderboard About Blog

Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3060 of 15113 papers

Title	Date	Tasks	Status	Hype
Language Reward Modulation for Pretraining Reinforcement Learning	Aug 23, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	1
RamseyRL: A Framework for Intelligent Ramsey Number Counterexample Searching	Aug 23, 2023	Reinforcement Learning (RL)	CodeCode Available	0
Towards Validating Long-Term User Feedbacks in Interactive Recommendation Systems	Aug 22, 2023	Interactive RecommendationRecommendation Systems	—Unverified	0
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying	Aug 21, 2023	Decision Makingreinforcement-learning	CodeCode Available	0
A Homogenization Approach for Gradient-Dominated Stochastic Optimization	Aug 21, 2023	ManagementReinforcement Learning (RL)	—Unverified	0
Stabilizing Unsupervised Environment Design with a Learned Adversary	Aug 21, 2023	Car Racingcontinuous-control	—Unverified	0
Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous Control with Discrete RL	Aug 20, 2023	Atari Gamescontinuous-control	—Unverified	0
Accelerating Exact Combinatorial Optimization via RL-based Initialization -- A Case Study in Scheduling	Aug 19, 2023	Combinatorial OptimizationReinforcement Learning (RL)	—Unverified	0
UAV-assisted Semantic Communication with Hybrid Action Reinforcement Learning	Aug 18, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforced Self-Training (ReST) for Language Modeling	Aug 17, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 306 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified