Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 15113 papers

Title	Date	Tasks	Status	Hype	Score
Curiosity-driven Red-teaming for Large Language Models	Feb 29, 2024	Red TeamingReinforcement Learning (RL)	CodeCode Available	2	5
Assessment of Reinforcement Learning for Macro Placement	Feb 21, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	2	5
DayDreamer: World Models for Physical Robot Learning	Jun 28, 2022	Deep Reinforcement LearningNavigate	CodeCode Available	2	5
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning	Mar 20, 2025	ClassificationFew-Shot Learning	CodeCode Available	2	5
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning	Jul 5, 2022	Code GenerationDecoder	CodeCode Available	2	5
AndroidEnv: A Reinforcement Learning Platform for Android	May 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	2	5
Craftium: An Extensible Framework for Creating Reinforcement Learning Environments	Jul 4, 2024	BenchmarkingMinecraft	CodeCode Available	2	5
AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs	Jul 8, 2025	GPUreinforcement-learning	CodeCode Available	2	5
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving	May 12, 2025	MathMathematical Problem-Solving	CodeCode Available	2	5
CTR-Driven Advertising Image Generation with Multimodal Large Language Models	Feb 5, 2025	Image GenerationReinforcement Learning (RL)	CodeCode Available	2	5
Decoupling Representation Learning from Reinforcement Learning	Sep 14, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	2	5
Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management	Feb 1, 2024	Deep Reinforcement LearningManagement	CodeCode Available	2	5
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning	Dec 11, 2021	Deep Reinforcement LearningGPU	CodeCode Available	2	5
Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks	Aug 20, 2024	Multi-agent Reinforcement LearningMulti-Task Learning	CodeCode Available	2	5
Physics-based Deep Learning	Sep 11, 2021	Deep LearningPhysical Simulations	CodeCode Available	2	5
A simple but strong baseline for online continual learning: Repeated Augmented Rehearsal	Sep 28, 2022	Continual LearningReinforcement Learning (RL)	CodeCode Available	1	5
A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning	Oct 10, 2022	Data Augmentationreinforcement-learning	CodeCode Available	1	5
Control-Informed Reinforcement Learning for Chemical Processes	Aug 24, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
A Composable Specification Language for Reinforcement Learning Tasks	Aug 21, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
A Boolean Task Algebra for Reinforcement Learning	Jan 6, 2020	Lifelong learningNegation	CodeCode Available	1	5
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1	5
Controlling the Risk of Conversational Search via Reinforcement Learning	Jan 15, 2021	Conversational Searchreinforcement-learning	CodeCode Available	1	5
Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems	May 18, 2023	Recommendation Systemsreinforcement-learning	CodeCode Available	1	5
Scalable Multi-agent Reinforcement Learning Algorithm for Wireless Networks	Aug 1, 2021	Decision MakingMulti-agent Reinforcement Learning	CodeCode Available	1	5
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning	Jul 29, 2022	Contrastive LearningDeep Reinforcement Learning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 16 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified