Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5501–5550 of 15113 papers

Title	Date	Tasks	Status	Hype
Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement Learning	Jun 3, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems	Jun 3, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Reinforcement Learning with Neural Radiance Fields	Jun 3, 2022	DecoderNeRF	—Unverified	0
Offline Reinforcement Learning with Causal Structured World Models	Jun 3, 2022	Model-based Reinforcement LearningOffline RL	—Unverified	0
Joint Energy Dispatch and Unit Commitment in Microgrids Based on Deep Reinforcement Learning	Jun 3, 2022	Deep Reinforcement Learningenergy management	—Unverified	0
Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress	Jun 3, 2022	Atari GamesHumanoid Control	CodeCode Available	1
Incrementality Bidding via Reinforcement Learning under Mixed and Delayed Rewards	Jun 2, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
HEX: Human-in-the-loop Explainability via Deep Reinforcement Learning	Jun 2, 2022	Decision MakingDeep Reinforcement Learning	—Unverified	0
Equivariant Reinforcement Learning for Quadrotor UAV	Jun 2, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning	Jun 2, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning	Jun 2, 2022	continuous-controlContinuous Control	—Unverified	0
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games	Jun 2, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified	0
Offline Reinforcement Learning with Differential Privacy	Jun 2, 2022	Offline RLreinforcement-learning	—Unverified	0
When does return-conditioned supervised learning work for offline reinforcement learning?	Jun 2, 2022	D4RLreinforcement-learning	CodeCode Available	1
Reinforcement learning based parameters adaption method for particle swarm optimization	Jun 2, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
NeuralSympCheck: A Symptom Checking and Disease Diagnostic Neural Model with Logic Regularization	Jun 2, 2022	DiagnosticReinforcement Learning (RL)	CodeCode Available	1
Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes	Jun 2, 2022	Reinforcement Learning (RL)	—Unverified	0
Deep Transformer Q-Networks for Partially Observable Reinforcement Learning	Jun 2, 2022	Partially Observable Reinforcement Learningreinforcement-learning	CodeCode Available	1
Incorporating Explicit Uncertainty Estimates into Deep Offline Reinforcement Learning	Jun 2, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
A Database of Multimodal Data to Construct a Simulated Dialogue Partner with Varying Degrees of Cognitive Health	Jun 1, 2022	Dialogue ManagementManagement	—Unverified	0
RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene Generation	Jun 1, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor	Jun 1, 2022	Reinforcement Learning (RL)Sequential Recommendation	CodeCode Available	1
Model Generation with Provable Coverability for Offline Reinforcement Learning	Jun 1, 2022	Offline RLOut-of-Distribution Generalization	—Unverified	0
Neural Improvement Heuristics for Graph Combinatorial Optimization Problems	Jun 1, 2022	Combinatorial OptimizationGraph Neural Network	CodeCode Available	0
Provably Efficient Offline Multi-agent Reinforcement Learning via Strategy-wise Bonus	Jun 1, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified	0
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting	Jun 1, 2022	Language ModellingReinforcement Learning (RL)	CodeCode Available	1
Predecessor Features	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Provably Efficient Lifelong Reinforcement Learning with Linear Function Approximation	Jun 1, 2022	4kLifelong learning	—Unverified	0
On Gap-dependent Bounds for Offline Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
The Phenomenon of Policy Churn	Jun 1, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in Offline RL	Jun 1, 2022	D4RLOffline RL	—Unverified	0
DM^2: Decentralized Multi-Agent Reinforcement Learning for Distribution Matching	Jun 1, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	0
Efficient Scheduling of Data Augmentation for Deep Reinforcement Learning	Jun 1, 2022	Data AugmentationDeep Reinforcement Learning	—Unverified	0
Byzantine-Robust Online and Offline Distributed Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents	May 31, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
A Mixture-of-Expert Approach to RL-based Dialogue Management	May 31, 2022	AttributeDialogue Management	—Unverified	0
Human-AI Shared Control via Policy Dissection	May 31, 2022	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available	2
Robust Longitudinal Control for Vehicular Autonomous Platoons Using Deep Reinforcement Learning	May 31, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Nearly Minimax Optimal Offline Reinforcement Learning with Linear Function Approximation: Single-Agent MDP and Markov Game	May 31, 2022	Offline RLReinforcement Learning (RL)	—Unverified	0
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints	May 31, 2022	Reinforcement Learning (RL)	—Unverified	0
Multi-Agent Learning of Numerical Methods for Hyperbolic PDEs with Factored Dec-MDP	May 31, 2022	Decision Makingreinforcement-learning	—Unverified	0
One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning	May 31, 2022	Reinforcement Learning (RL)	—Unverified	0
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems	May 31, 2022	Efficient Explorationreinforcement-learning	—Unverified	0
k-Means Maximum Entropy Exploration	May 31, 2022	Density Estimationreinforcement-learning	—Unverified	0
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions	May 31, 2022	Atari Gamescounterfactual	CodeCode Available	0
Lessons Learned from Data-Driven Building Control Experiments: Contrasting Gaussian Process-based MPC, Bilevel DeePC, and Deep Reinforcement Learning	May 31, 2022	Deep Reinforcement LearningGaussian Processes	—Unverified	0
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud	May 31, 2022	CPUDecision Making	CodeCode Available	0
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems	May 30, 2022	Diversityreinforcement-learning	CodeCode Available	2
A Simulation Environment and Reinforcement Learning Method for Waste Reduction	May 30, 2022	Distributional Reinforcement Learningreinforcement-learning	—Unverified	0

Show:10 25 50

← PrevPage 111 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified