Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7326–7350 of 15113 papers

Title	Date	Tasks	Status
WiseMove: A Framework for Safe Deep Reinforcement Learning for Autonomous Driving	Feb 11, 2019	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Wish you were here: Hindsight Goal Selection for long-horizon dexterous manipulation	Dec 1, 2021	continuous-controlContinuous Control	—Unverified
Words as Beacons: Guiding RL Agents with High-Level Language Prompts	Oct 11, 2024	Reinforcement Learning (RL)	—Unverified
Workflow-Guided Response Generation for Task-Oriented Dialogue	Nov 14, 2023	Reinforcement Learning (RL)Response Generation	—Unverified
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks	May 3, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
World Models Increase Autonomy in Reinforcement Learning	Aug 19, 2024	reinforcement-learningReinforcement Learning	—Unverified
World of Bits: An Open-Domain Platform for Web-Based Agents	Aug 1, 2017	reinforcement-learningReinforcement Learning	—Unverified
World Programs for Model-Based Learning and Planning in Compositional State and Action Spaces	Dec 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
World Value Functions: Knowledge Representation for Multitask Reinforcement Learning	May 18, 2022	reinforcement-learningReinforcement Learning	—Unverified
Worm-level Control through Search-based Reinforcement Learning	Nov 9, 2017	reinforcement-learningReinforcement Learning	—Unverified
Worst-Case Regret Bounds for Exploration via Randomized Value Functions	Jun 7, 2019	Efficient Explorationreinforcement-learning	—Unverified
Worst Cases Policy Gradients	Nov 9, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
X-MEN: Guaranteed XOR-Maximum Entropy Constrained Inverse Reinforcement Learning	Mar 22, 2022	reinforcement-learningReinforcement Learning	—Unverified
xMTF: A Formula-Free Model for Reinforcement-Learning-Based Multi-Task Fusion in Recommender Systems	Apr 8, 2025	Multi-Task LearningRecommendation Systems	—Unverified
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real	May 11, 2025	Domain AdaptationImitation Learning	—Unverified
Yes, Q-learning Helps Offline In-Context RL	Feb 24, 2025	In-Context Reinforcement LearningMuJoCo	—Unverified
You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL	Oct 5, 2021	D4RLOffline RL	—Unverified
You Only Live Once: Single-Life Reinforcement Learning	Oct 17, 2022	continuous-controlContinuous Control	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
Zermelo's problem: Optimal point-to-point navigation in 2D turbulent flows using Reinforcement Learning	Jul 17, 2019	NavigateReinforcement Learning	—Unverified
Zero-Shot Action Generalization with Limited Observations	Mar 11, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation	Oct 9, 2024	Data AugmentationDisentanglement	—Unverified
Zero Shot Learning on Simulated Robots	Oct 4, 2019	reinforcement-learningReinforcement Learning	—Unverified
Zero-Shot Policy Transfer with Disentangled Attention	Sep 25, 2019	Deep Reinforcement LearningDomain Adaptation	—Unverified
Zero-Shot Policy Transfer with Disentangled Task Representation of Meta-Reinforcement Learning	Oct 1, 2022	DisentanglementMeta Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 294 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified