Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8376–8400 of 15113 papers

Title	Date	Tasks	Status
One-Shot Learning of Manipulation Skills with Online Dynamics Adaptation and Neural Network Priors	Sep 23, 2015	Model-based Reinforcement LearningModel Predictive Control	—Unverified
One-shot, Offline and Production-Scalable PID Optimisation with Deep Reinforcement Learning	Oct 25, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
One-Step Distributional Reinforcement Learning	Apr 27, 2023	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Sample Complexity of Offline Reinforcement Learning with Deep ReLU Networks	Mar 11, 2021	Offline RLreinforcement-learning	—Unverified
On Gap-dependent Bounds for Offline Reinforcement Learning	Jun 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
On Generalization and Distributional Update for Mimicking Observations with Adequate Exploration	Jan 22, 2025	Reinforcement Learning (RL)	—Unverified
On Hard Exploration for Reinforcement Learning: a Case Study in Pommerman	Jul 26, 2019	reinforcement-learningReinforcement Learning	—Unverified
On Improving Cross-dataset Generalization of Deepfake Detectors	Apr 8, 2022	Binary ClassificationClassification	—Unverified
On Improving Deep Reinforcement Learning for POMDPs	Apr 17, 2018	Atari GamesDecision Making	—Unverified
On Inductive Biases in Deep Reinforcement Learning	Jul 5, 2019	continuous-controlContinuous Control	—Unverified
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality	Oct 21, 2020	Multi-agent Reinforcement LearningQ-Learning	—Unverified
On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation	Nov 23, 2022	Offline RLreinforcement-learning	—Unverified
On Jointly Optimizing Partial Offloading and SFC Mapping: A Cooperative Dual-agent Deep Reinforcement Learning Approach	May 20, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models	Nov 30, 2015	Decision MakingReinforcement Learning	—Unverified
Online 3D Bin Packing Reinforcement Learning Solution with Buffer	Aug 15, 2022	3D Bin PackingData Augmentation	—Unverified
Online Adaptation of Deep Architectures with Reinforcement Learning	Aug 8, 2016	Denoisingreinforcement-learning	—Unverified
Online Adaptive Optimal Control Algorithm Based on Synchronous Integral Reinforcement Learning With Explorations	May 19, 2021	Q-Learningreinforcement-learning	—Unverified
Online Algorithms and Policies Using Adaptive and Machine Learning Approaches	May 13, 2021	BIG-bench Machine LearningReinforcement Learning (RL)	—Unverified
Online Antenna Tuning in Heterogeneous Cellular Networks with Deep Reinforcement Learning	Mar 15, 2019	Deep Reinforcement LearningQ-Learning	—Unverified
Online Attentive Kernel-Based Temporal Difference Learning	Jan 22, 2022	AcrobotReinforcement Learning (RL)	—Unverified
Online Behavior Modification for Expressive User Control of RL-Trained Robots	Aug 15, 2024	DiversityReinforcement Learning (RL)	—Unverified
Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning	Aug 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
On-line Building Energy Optimization using Deep Reinforcement Learning	Jul 18, 2017	Deep Reinforcement Learningenergy management	—Unverified
Online Constrained Model-based Reinforcement Learning	Apr 7, 2020	Autonomous RacingGaussian Processes	—Unverified
Online Contrastive Divergence with Generative Replay: Experience Replay without Storing Data	Oct 18, 2016	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 336 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified