Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1175 of 15113 papers

Title	Date	Tasks	Status	Hype
AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models	Sep 13, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Contrastive Preference Learning: Learning from Human Feedback without RL	Oct 20, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems	Jun 1, 2024	Recommendation SystemsReinforcement Learning (RL)	CodeCode Available	1
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1
Contrastive Variational Reinforcement Learning for Complex Observations	Aug 6, 2020	Atari GamesContinuous Control	CodeCode Available	1
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
Controlling the Risk of Conversational Search via Reinforcement Learning	Jan 15, 2021	Conversational Searchreinforcement-learning	CodeCode Available	1
Control-Oriented Model-Based Reinforcement Learning with Implicit Differentiation	Jun 6, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Confidence Estimation Transformer for Long-term Renewable Energy Forecasting in Reinforcement Learning-based Power Grid Dispatching	Apr 10, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators	Apr 8, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem	Jun 30, 2017	Deep Reinforcement LearningManagement	CodeCode Available	1
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation	Apr 19, 2022	Offline RLOff-policy evaluation	CodeCode Available	1
CompoSuite: A Compositional Reinforcement Learning Benchmark	Jul 8, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
CoRL: Environment Creation and Management Focused on System Integration	Mar 3, 2023	Managementreinforcement-learning	CodeCode Available	1
Compositional Reinforcement Learning from Logical Specifications	Jun 25, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Compound AI Systems Optimization: A Survey of Methods, Challenges, and Future Directions	Jun 9, 2025	Reinforcement Learning (RL)	CodeCode Available	1
Critic-Guided Decoding for Controlled Text Generation	Dec 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Critic Regularized Regression	Jun 26, 2020	Offline RLregression	CodeCode Available	1
CropGym: a Reinforcement Learning Environment for Crop Management	Apr 9, 2021	ManagementOpenAI Gym	CodeCode Available	1
Cross-Domain Policy Adaptation by Capturing Representation Mismatch	May 24, 2024	Reinforcement Learning (RL)Representation Learning	CodeCode Available	1
An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic Manipulation with Pybullet	May 12, 2021	MuJoCoMulti-Goal Reinforcement Learning	CodeCode Available	1
Cross-Modal Domain Adaptation for Reinforcement Learning	Jan 1, 2021	Domain AdaptationMuJoCo	CodeCode Available	1
Cross Modality 3D Navigation Using Reinforcement Learning and Neural Style Transfer	Nov 5, 2021	Computed Tomography (CT)Diagnostic	CodeCode Available	1
CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity	Feb 14, 2019	continuous-controlContinuous Control	CodeCode Available	1
An Inductive Bias for Distances: Neural Nets that Respect the Triangle Inequality	Feb 14, 2020	Inductive BiasMetric Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 47 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified