Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13901–13950 of 15113 papers

Title	Date	Tasks	Status
Differentiable lower bound for expected BLEU score	Dec 13, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Application of Self-Play Reinforcement Learning to a Four-Player Game of Imperfect Information	Aug 30, 2018	Card Gamesreinforcement-learning	CodeCode Available
Online Reinforcement Learning in Non-Stationary Context-Driven Environments	Feb 4, 2023	MuJoCoreinforcement-learning	CodeCode Available
DeepTPI: Test Point Insertion with Deep Reinforcement Learning	Jun 7, 2022	Deep Reinforcement LearningGraph Neural Network	CodeCode Available
Hierarchical Reinforcement Learning with Optimal Level Synchronization based on a Deep Generative Model	Jul 17, 2021	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available
Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards	Oct 10, 2019	Hierarchical Reinforcement LearningMuJoCo	CodeCode Available
Koopman Spectrum Nonlinear Regulators and Efficient Online Learning	Jun 30, 2021	Decision Makingreinforcement-learning	CodeCode Available
Differentially Private Regret Minimization in Episodic Markov Decision Processes	Dec 20, 2021	Decision MakingReinforcement Learning (RL)	CodeCode Available
Autonomous robotic nanofabrication with reinforcement learning	Feb 27, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
A Deep Reinforcement Learning Framework For Column Generation	Jun 3, 2022	Decision MakingDeep Reinforcement Learning	CodeCode Available
Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition	May 21, 1999	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces	Sep 28, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud	May 31, 2022	CPUDecision Making	CodeCode Available
Fairness Through Counterfactual Utilities	Aug 11, 2021	BIG-bench Machine Learningcounterfactual	CodeCode Available
FairStream: Fair Multimedia Streaming Benchmark for Reinforcement Learning Agents	Oct 28, 2024	Fairnessreinforcement-learning	CodeCode Available
DeepSynth: Automata Synthesis for Automatic Task Segmentation in Deep Reinforcement Learning	Nov 22, 2019	Deep Reinforcement LearningHierarchical Reinforcement Learning	CodeCode Available
A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning	Feb 3, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Deep Successor Reinforcement Learning	Jun 8, 2016	Deep Reinforcement LearningFPS Games	CodeCode Available
Deep Spatial Autoencoders for Visuomotor Learning	Sep 21, 2015	reinforcement-learningReinforcement Learning	CodeCode Available
Autonomous Option Invention for Continual Hierarchical Reinforcement Learning and Planning	Dec 20, 2024	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available
Action-Attentive Deep Reinforcement Learning for Autonomous Alignment of Beamlines	Nov 19, 2024	Bayesian OptimizationDeep Reinforcement Learning	CodeCode Available
DeepSim: A Reinforcement Learning Environment Build Toolkit for ROS and Gazebo	May 17, 2022	BIG-bench Machine Learningreinforcement-learning	CodeCode Available
Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models	May 24, 2025	Reinforcement Learning (RL)	CodeCode Available
Deep RTS: A Game Environment for Deep Reinforcement Learning in Real-Time Strategy Games	Aug 15, 2018	Deep Reinforcement LearningReal-Time Strategy Games	CodeCode Available
Deep reinforcement learning with time-scale invariant memory	Dec 19, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems	Feb 20, 2023	Learning-To-RankReinforcement Learning (RL)	CodeCode Available
Deep Reinforcement Learning with Swin Transformers	Jun 30, 2022	Atari GamesDeep Reinforcement Learning	CodeCode Available
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games	Oct 22, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available
Conjugated Discrete Distributions for Distributional Reinforcement Learning	Dec 14, 2021	Atari GamesDistributional Reinforcement Learning	CodeCode Available
Graph-based State Representation for Deep Reinforcement Learning	Apr 29, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Deep Reinforcement Learning with Function Properties in Mean Reversion Strategies	Jan 9, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available
Deep Reinforcement Learning with Feedback-based Exploration	Mar 14, 2019	continuous-controlContinuous Control	CodeCode Available
Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search	Jan 22, 2019	Neural Architecture SearchReinforcement Learning	CodeCode Available
Hierarchical Text Generation and Planning for Strategic Dialogue	Dec 15, 2017	Decision Makingreinforcement-learning	CodeCode Available
Deep Reinforcement Learning with a Natural Language Action Space	Nov 14, 2015	Deep Reinforcement LearningQ-Learning	CodeCode Available
L2Explorer: A Lifelong Reinforcement Learning Assessment Environment	Mar 14, 2022	Continual LearningLifelong learning	CodeCode Available
Digital Twin Aided Channel Estimation: Zone-Specific Subspace Prediction and Calibration	Jan 6, 2025	Reinforcement Learning (RL)	CodeCode Available
Accommodating Picky Customers: Regret Bound and Exploration Complexity for Multi-Objective Reinforcement Learning	Nov 25, 2020	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Confidence Aware Inverse Constrained Reinforcement Learning	Jun 24, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
L2SR: Learning to Sample and Reconstruct for Accelerated MRI via Reinforcement Learning	Dec 5, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Laboratory Experiments of Model-based Reinforcement Learning for Adaptive Optics Control	Dec 30, 2023	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
A Machine with Short-Term, Episodic, and Semantic Memory Systems	Dec 5, 2022	Q-LearningReinforcement Learning (RL)	CodeCode Available
Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning	Mar 16, 2023	Efficient ExplorationMulti-agent Reinforcement Learning	CodeCode Available
Fast deep reinforcement learning using online adjustments from the past	Oct 18, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
Learning Light Transport the Reinforced Way	Jan 25, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Long-Term Visitation Value for Deep Exploration in Sparse Reward Reinforcement Learning	Jan 1, 2020	Benchmarkingreinforcement-learning	CodeCode Available
Dimension-Wise Importance Sampling Weight Clipping for Sample-Efficient Reinforcement Learning	May 7, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Deep Reinforcement Learning with a Combinatorial Action Space for Predicting Popular Reddit Threads	Jun 12, 2016	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying	Aug 21, 2023	Decision Makingreinforcement-learning	CodeCode Available
Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks	Feb 18, 2025	Imitation LearningMinecraft	CodeCode Available

Show:10 25 50

← PrevPage 279 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified