Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10351–10400 of 15113 papers

Title	Date	Tasks	Status
Offline Pre-trained Multi-Agent Decision Transformer	Sep 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Offline Primal-Dual Reinforcement Learning for Linear MDPs	May 22, 2023	Offline RLreinforcement-learning	—Unverified
Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes	Nov 28, 2022	Offline RLQ-Learning	—Unverified
Offline Reinforcement Learning and Sequence Modeling for Downlink Link Adaptation	Oct 30, 2024	Offline RLQ-Learning	—Unverified
Offline Reinforcement Learning as Anti-Exploration	Jun 11, 2021	continuous-controlContinuous Control	—Unverified
Offline Reinforcement Learning at Multiple Frequencies	Jul 26, 2022	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning for Human-Guided Human-Machine Interaction with Private Information	Dec 23, 2022	Decision MakingOff-policy evaluation	—Unverified
Offline reinforcement learning for job-shop scheduling problems	Oct 21, 2024	Combinatorial OptimizationDeep Learning	—Unverified
Offline Reinforcement Learning for Large Scale Language Action Spaces	Sep 29, 2021	Language ModelingLanguage Modelling	—Unverified
Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management	Feb 21, 2023	Dialogue ManagementDiversity	—Unverified
Offline Reinforcement Learning for Mobile Notifications	Feb 4, 2022	AttributeRecommendation Systems	—Unverified
Offline Reinforcement Learning for Road Traffic Control	Jan 7, 2022	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning for Wireless Network Optimization with Mixture Datasets	Nov 19, 2023	ManagementOffline RL	—Unverified
Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation	Nov 21, 2021	Decision MakingOffline RL	—Unverified
Offline Reinforcement Learning Hands-On	Nov 29, 2020	Behavioural cloningDecision Making	—Unverified
Offline Reinforcement Learning Under Value and Density-Ratio Realizability: The Power of Gaps	Mar 25, 2022	Offline RLReinforcement Learning (RL)	—Unverified
Offline Reinforcement Learning with Pseudometric Learning	Mar 2, 2021	reinforcement-learningReinforcement Learning	—Unverified
Offline reinforcement learning with uncertainty for treatment strategies in sepsis	Jul 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Offline Reinforcement Learning with Realizability and Single-policy Concentrability	Feb 9, 2022	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Differential Privacy	Jun 2, 2022	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes	Sep 18, 2022	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient	Oct 3, 2022	Decision MakingOffline RL	—Unverified
Offline Reinforcement Learning with Imbalanced Datasets	Jul 6, 2023	D4RLOffline RL	—Unverified
Offline Reinforcement Learning with Behavioral Supervisor Tuning	Apr 25, 2024	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Adaptive Behavior Regularization	Nov 15, 2022	D4RLOffline RL	—Unverified
Offline Reinforcement Learning with Causal Structured World Models	Jun 3, 2022	Model-based Reinforcement LearningOffline RL	—Unverified
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators	Nov 29, 2022	D4RLForm	—Unverified
Offline Reinforcement Learning with Discrete Diffusion Skills	Mar 26, 2025	DecoderOffline RL	—Unverified
Offline Reinforcement Learning with Fisher Divergence Critic Regularization	Mar 14, 2021	Offline RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with On-Policy Q-Function Regularization	Jul 25, 2023	D4RLreinforcement-learning	—Unverified
Offline Reinforcement Learning with Resource Constrained Online Deployment	Sep 29, 2021	D4RLOffline RL	—Unverified
Offline Reinforcement Learning with Soft Behavior Regularization	Oct 14, 2021	continuous-controlContinuous Control	—Unverified
Offline RL with Observation Histories: Analyzing and Improving Sample Complexity	Oct 31, 2023	Autonomous NavigationOffline RL	—Unverified
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints	Nov 2, 2022	Atari GamesOffline RL	—Unverified
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator	Apr 23, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Offline Robot Reinforcement Learning with Uncertainty-Guided Human Expert Sampling	Dec 16, 2022	MuJoCoQ-Learning	—Unverified
Offline Trajectory Generalization for Offline Reinforcement Learning	Apr 16, 2024	D4RLData Augmentation	—Unverified
Off-Policy Deep Reinforcement Learning Algorithms for Handling Various Robotic Manipulator Tasks	Dec 11, 2022	Deep Reinforcement LearningMuJoCo	—Unverified
Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift	Jan 27, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Off-Policy Evaluation for Human Feedback	Oct 11, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders	Jul 27, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Off-Policy Evaluation in Partially Observable Environments	Sep 9, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Off-Policy Evaluation via Off-Policy Classification	Jun 4, 2019	ClassificationDeep Reinforcement Learning	—Unverified
Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory	Feb 10, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces	Jan 6, 2021	Meta Reinforcement Learningreinforcement-learning	—Unverified
Off-Policy Policy Gradient Algorithms by Constraining the State Distribution Shift	Nov 16, 2019	continuous-controlContinuous Control	—Unverified
Off-policy reinforcement learning for H_ control design	Nov 24, 2013	reinforcement-learningReinforcement Learning	—Unverified
Off-Policy Reinforcement Learning with Delayed Rewards	Jun 22, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction	Oct 22, 2021	continuous-controlContinuous Control	—Unverified
Off-Policy Reinforcement Learning with High Dimensional Reward	Aug 14, 2024	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 208 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified