Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14551–14600 of 15113 papers

Title	Date	Tasks	Status
Learning by Playing - Solving Sparse Reward Tasks from Scratch	Feb 28, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Angrier Birds: Bayesian reinforcement learning	Jan 6, 2016	Efficient ExplorationQ-Learning	CodeCode Available
DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning	Sep 15, 2021	Deep Reinforcement LearningOffline RL	CodeCode Available
CAGES: Cost-Aware Gradient Entropy Search for Efficient Local Multi-Fidelity Bayesian Optimization	May 13, 2024	Bayesian OptimizationReinforcement Learning (RL)	CodeCode Available
Implicit Quantile Networks for Distributional Reinforcement Learning	Jun 14, 2018	Atari GamesDistributional Reinforcement Learning	CodeCode Available
Data Valuation using Reinforcement Learning	Sep 25, 2019	Data ValuationDomain Adaptation	CodeCode Available
A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning	May 25, 2025	Reinforcement Learning (RL)	CodeCode Available
Ask the Right Questions: Active Question Reformulation with Reinforcement Learning	May 22, 2017	Information RetrievalQuestion Answering	CodeCode Available
Efficient Reinforcement Learning for StarCraft by Abstract Forward Models and Transfer Learning	Mar 2, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy	Jul 25, 2022	continuous-controlContinuous Control	CodeCode Available
General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States	Jul 4, 2022	continuous-controlContinuous Control	CodeCode Available
General policy mapping: online continual reinforcement learning inspired on the insect brain	Nov 30, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
C-3PO: Cyclic-Three-Phase Optimization for Human-Robot Motion Retargeting based on Reinforcement Learning	Sep 25, 2019	Deep Reinforcement Learningmotion retargeting	CodeCode Available
Adaptive Risk-Aware Bidding with Budget Constraint in Display Advertising	Dec 6, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning	May 30, 2022	Data PoisoningDeep Reinforcement Learning	CodeCode Available
Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning	Jun 18, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Data sharing games	Jan 26, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems	Oct 17, 2022	Reinforcement Learning (RL)	CodeCode Available
Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning	Oct 16, 2023	ChatbotOffline RL	CodeCode Available
Importance Prioritized Policy Distillation	Aug 25, 2022	Atari GamesDecision Making	CodeCode Available
Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities	Jul 15, 2025	Reinforcement Learning (RL)	CodeCode Available
Depth Self-Optimized Learning Toward Data Science	Nov 2, 2020	Reinforcement Learning (RL)	CodeCode Available
Generating Classical Chinese Poems from Vernacular Chinese	Aug 31, 2019	Cultural Vocal Bursts Intensity PredictionMachine Translation	CodeCode Available
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage	Oct 27, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available
Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning	Jan 30, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Efficient Sparse-Reward Goal-Conditioned Reinforcement Learning with a High Replay Ratio and Regularization	Dec 10, 2023	Q-LearningReinforcement Learning (RL)	CodeCode Available
An Evaluation Study of Intrinsic Motivation Techniques applied to Reinforcement Learning over Hard Exploration Environments	May 23, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
A neurally plausible model learns successor representations in partially observable environments	Jun 22, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Skynet: A Top Deep RL Agent in the Inaugural Pommerman Team Competition	Apr 20, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
Data-Efficient Reinforcement Learning with Probabilistic Model Predictive Control	Jun 20, 2017	Gaussian ProcessesModel Predictive Control	CodeCode Available
Learning Scheduling Algorithms for Data Processing Clusters	Oct 3, 2018	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Brick Tic-Tac-Toe: Exploring the Generalizability of AlphaZero to Novel Test Environments	Jul 13, 2022	Reinforcement Learning (RL)	CodeCode Available
Efficient time stepping for numerical integration using reinforcement learning	Apr 8, 2021	Meta-LearningNumerical Integration	CodeCode Available
Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments	Mar 18, 2024	Reinforcement Learning (RL)	CodeCode Available
Generating Multi-type Temporal Sequences to Mitigate Class-imbalanced Problem	Apr 7, 2021	BIG-bench Machine LearningClick-Through Rate Prediction	CodeCode Available
A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation	Aug 21, 2019	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning	Apr 4, 2016	reinforcement-learningReinforcement Learning	CodeCode Available
Learning to Play in a Day: Faster Deep Reinforcement Learning by Optimality Tightening	Nov 5, 2016	Atari GamesDeep Reinforcement Learning	CodeCode Available
Data-Efficient Hierarchical Reinforcement Learning	May 21, 2018	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available
Bregman Gradient Policy Optimization	Jun 23, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition	Feb 9, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Data driven approach towards more efficient Newton-Raphson power flow calculation for distribution grids	Apr 15, 2025	Reinforcement Learning (RL)	CodeCode Available
Data center cooling using model-predictive control	Dec 1, 2018	modelModel Predictive Control	CodeCode Available
Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning	Jan 1, 2024	Autonomous VehiclesDeep Reinforcement Learning	CodeCode Available
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models	Feb 8, 2025	Conformal PredictionDecision Making	CodeCode Available
Ego-Pose Estimation and Forecasting as Real-Time PD Control	Jun 7, 2019	Egocentric Pose EstimationHuman Pose Forecasting	CodeCode Available
Adaptive Reward Design for Reinforcement Learning	Dec 14, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward	May 12, 2025	Recommendation SystemsReinforcement Learning (RL)	CodeCode Available
Learning Self-Correctable Policies and Value Functions from Demonstrations with Negative Sampling	Jul 12, 2019	Imitation Learningreinforcement-learning	CodeCode Available
BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning	Oct 2, 2021	Offline RLreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 292 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified