Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13501–13550 of 15113 papers

Title	Date	Tasks	Status
Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees	May 2, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Structural Design Through Reinforcement Learning	Jul 10, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference	Jan 2, 2022	continuous-controlContinuous Control	CodeCode Available
Sample Efficient Policy Gradient Methods with Recursive Variance Reduction	Sep 18, 2019	Policy Gradient Methodsreinforcement-learning	CodeCode Available
Toward Collaborative Reinforcement Learning Agents that Communicate Through Text-Based Natural Language	Jul 20, 2021	Navigatereinforcement-learning	CodeCode Available
Structure and randomness in planning and reinforcement learning	Jan 1, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Rate-Splitting for Intelligent Reflecting Surface-Aided Multiuser VR Streaming	Oct 21, 2022	Continuous ControlDeep Reinforcement Learning	CodeCode Available
Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies	Jan 30, 2023	Data AugmentationFeature Engineering	CodeCode Available
Ranking Sentences for Extractive Summarization with Reinforcement Learning	Feb 23, 2018	Document SummarizationExtractive Summarization	CodeCode Available
When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning	Oct 19, 2022	continuous-controlContinuous Control	CodeCode Available
Structured Control Nets for Deep Reinforcement Learning	Feb 22, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Trust, but verify: model-based exploration in sparse reward environments	Jan 1, 2021	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Structured Fusion Networks for Dialog	Jul 23, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Neural Map: Structured Memory for Deep Reinforcement Learning	Feb 27, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Oralytics Reinforcement Learning Algorithm	Jun 19, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Neural Lyapunov Function Approximation with Self-Supervised Reinforcement Learning	Mar 19, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Structured Variational Learning of Bayesian Neural Networks with Horseshoe Priors	Jun 13, 2018	Model SelectionOpen-Ended Question Answering	CodeCode Available
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available
Trust Region-Guided Proximal Policy Optimization	Jan 29, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
Deep Reinforcement Learning Methods for Structure-Guided Processing Path Optimization	Sep 21, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks	Aug 1, 2018	Deep Reinforcement LearningQ-Learning	CodeCode Available
Trust-Region Twisted Policy Improvement	Apr 8, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Ranking Policy Gradient	Jun 24, 2019	Policy Gradient MethodsReinforcement Learning	CodeCode Available
Minimax Regret Bounds for Reinforcement Learning	Mar 16, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Structure Mapping for Transferability of Causal Models	Jul 18, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Sample-Efficient Reinforcement Learning with Maximum Entropy Mellowmax Episodic Control	Nov 21, 2019	Atari Gamesreinforcement-learning	CodeCode Available
Student-Initiated Action Advising via Advice Novelty	Oct 1, 2020	Atari GamesDeep Reinforcement Learning	CodeCode Available
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration	Oct 16, 2024	Reinforcement Learning (RL)	CodeCode Available
Minimax-Bayes Reinforcement Learning	Feb 21, 2023	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Toward Policy Explanations for Multi-Agent Reinforcement Learning	Apr 26, 2022	Autonomous DrivingDecision Making	CodeCode Available
OptionGAN: Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning	Sep 20, 2017	continuous-controlContinuous Control	CodeCode Available
Ranking Policy Decisions	Aug 31, 2020	Atari GamesReinforcement Learning (RL)	CodeCode Available
Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation and Complexity Analysis	Jul 29, 2022	Meta-LearningMeta Reinforcement Learning	CodeCode Available
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations	Jul 9, 2019	Imitation Learningreinforcement-learning	CodeCode Available
Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization	Jul 4, 2018	Combinatorial Optimizationreinforcement-learning	CodeCode Available
Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace	Mar 7, 2024	AttributeContrastive Learning	CodeCode Available
Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control	Feb 22, 2023	Distributional Reinforcement Learningreinforcement-learning	CodeCode Available
Option Discovery in the Absence of Rewards with Manifold Analysis	Mar 12, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
LS3: Latent Space Safe Sets for Long-Horizon Visuomotor Control of Sparse Reward Iterative Tasks	Jul 10, 2021	Binary ClassificationReinforcement Learning (RL)	CodeCode Available
Model-free Quantum Gate Design and Calibration using Deep Reinforcement Learning	Feb 5, 2023	Deep Reinforcement LearningModel free quantum gate design	CodeCode Available
SAPIENT: Mastering Multi-turn Conversational Recommendation with Strategic Planning and Monte Carlo Tree Search	Oct 12, 2024	Conversational RecommendationConversational Search	CodeCode Available
Towards a Common Implementation of Reinforcement Learning for Multiple Robotic Tasks	Feb 21, 2017	Decision Makingreinforcement-learning	CodeCode Available
Multi-agent Cooperative Games Using Belief Map Assisted Training	Jun 27, 2024	Reinforcement Learning (RL)	CodeCode Available
Random Projection in Neural Episodic Control	Apr 3, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available
Neural Logic Reinforcement Learning	Apr 24, 2019	Deep Reinforcement LearningInductive logic programming	CodeCode Available
Multi-Agent Connected Autonomous Driving using Deep Reinforcement Learning	Nov 11, 2019	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available
Randomized Prior Functions for Deep Reinforcement Learning	Jun 8, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Random Expert Distillation: Imitation Learning via Expert Policy Support Estimation	May 16, 2019	Imitation Learningreinforcement-learning	CodeCode Available
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning	May 22, 2025	Language ModelingLanguage Modelling	CodeCode Available
Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages	Mar 17, 2021	Autonomous Vehiclesreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 271 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified