Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5526–5550 of 15113 papers

Title	Date	Tasks	Status	Hype
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting	Jun 1, 2022	Language ModellingReinforcement Learning (RL)	CodeCode Available	1
Predecessor Features	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Provably Efficient Lifelong Reinforcement Learning with Linear Function Approximation	Jun 1, 2022	4kLifelong learning	—Unverified	0
On Gap-dependent Bounds for Offline Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
The Phenomenon of Policy Churn	Jun 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in Offline RL	Jun 1, 2022	D4RLOffline RL	—Unverified	0
DM^2: Decentralized Multi-Agent Reinforcement Learning for Distribution Matching	Jun 1, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	0
Efficient Scheduling of Data Augmentation for Deep Reinforcement Learning	Jun 1, 2022	Data AugmentationDeep Reinforcement Learning	—Unverified	0
Byzantine-Robust Online and Offline Distributed Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents	May 31, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
A Mixture-of-Expert Approach to RL-based Dialogue Management	May 31, 2022	AttributeDialogue Management	—Unverified	0
Human-AI Shared Control via Policy Dissection	May 31, 2022	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available	2
Robust Longitudinal Control for Vehicular Autonomous Platoons Using Deep Reinforcement Learning	May 31, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Nearly Minimax Optimal Offline Reinforcement Learning with Linear Function Approximation: Single-Agent MDP and Markov Game	May 31, 2022	Offline RLReinforcement Learning (RL)	—Unverified	0
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints	May 31, 2022	Reinforcement Learning (RL)	—Unverified	0
Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with Factored Dec-MDP	May 31, 2022	Decision Makingreinforcement-learning	—Unverified	0
One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning	May 31, 2022	Reinforcement Learning (RL)	—Unverified	0
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems	May 31, 2022	Efficient Explorationreinforcement-learning	—Unverified	0
k-Means Maximum Entropy Exploration	May 31, 2022	Density Estimationreinforcement-learning	—Unverified	0
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions	May 31, 2022	Atari Gamescounterfactual	CodeCode Available	0
Lessons Learned from Data-Driven Building Control Experiments: Contrasting Gaussian Process-based MPC, Bilevel DeePC, and Deep Reinforcement Learning	May 31, 2022	Deep Reinforcement LearningGaussian Processes	—Unverified	0
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud	May 31, 2022	CPUDecision Making	CodeCode Available	0
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems	May 30, 2022	Diversityreinforcement-learning	CodeCode Available	2
A Simulation Environment and Reinforcement Learning Method for Waste Reduction	May 30, 2022	Distributional Reinforcement Learningreinforcement-learning	—Unverified	0

Show:10 25 50

← PrevPage 222 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified