Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11551–11600 of 15113 papers

Title	Date	Tasks	Status
Why Online Reinforcement Learning is Causal	Mar 7, 2024	counterfactualOffline RL	—Unverified
Why Pay More When You Can Pay Less: A Joint Learning Framework for Active Feature Acquisition and Classification	Sep 18, 2017	General ClassificationReinforcement Learning	—Unverified
Why so pessimistic? Estimating uncertainties for offline RL through ensembles, and why their independence matters.	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters	May 27, 2022	D4RLOffline RL	—Unverified
Widely Used and Fast De Novo Drug Design by a Protein Sequence-Based Reinforcement Learning Model	Aug 14, 2022	Drug DesignDrug Discovery	—Unverified
Wield: Systematic Reinforcement Learning With Progressive Randomization	Sep 15, 2019	General Classificationreinforcement-learning	—Unverified
Will it Blend? Composing Value Functions in Reinforcement Learning	Jul 12, 2018	Lifelong learningreinforcement-learning	—Unverified
Wind Power Forecasting Considering Data Privacy Protection: A Federated Deep Reinforcement Learning Approach	Nov 2, 2022	Deep Reinforcement LearningFederated Learning	—Unverified
Winning at Any Cost -- Infringing the Cartel Prohibition With Reinforcement Learning	Jul 5, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance	Dec 4, 2022	Decision MakingReinforcement Learning (RL)	—Unverified
Winning the L2RPN Challenge: Power Grid Management via Semi-Markov Afterstate Actor-Critic	Jan 1, 2021	ManagementReinforcement Learning (RL)	—Unverified
Wireless 2.0: Towards an Intelligent Radio Environment Empowered by Reconfigurable Meta-Surfaces and Artificial Intelligence	Feb 23, 2020	Managementreinforcement-learning	—Unverified
WiseMove: A Framework for Safe Deep Reinforcement Learning for Autonomous Driving	Feb 11, 2019	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Wish you were here: Hindsight Goal Selection for long-horizon dexterous manipulation	Dec 1, 2021	continuous-controlContinuous Control	—Unverified
Words as Beacons: Guiding RL Agents with High-Level Language Prompts	Oct 11, 2024	Reinforcement Learning (RL)	—Unverified
Workflow-Guided Response Generation for Task-Oriented Dialogue	Nov 14, 2023	Reinforcement Learning (RL)Response Generation	—Unverified
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks	May 3, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
World Models Increase Autonomy in Reinforcement Learning	Aug 19, 2024	reinforcement-learningReinforcement Learning	—Unverified
World of Bits: An Open-Domain Platform for Web-Based Agents	Aug 1, 2017	reinforcement-learningReinforcement Learning	—Unverified
World Programs for Model-Based Learning and Planning in Compositional State and Action Spaces	Dec 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
World Value Functions: Knowledge Representation for Multitask Reinforcement Learning	May 18, 2022	reinforcement-learningReinforcement Learning	—Unverified
Worm-level Control through Search-based Reinforcement Learning	Nov 9, 2017	reinforcement-learningReinforcement Learning	—Unverified
Worst-Case Regret Bounds for Exploration via Randomized Value Functions	Jun 7, 2019	Efficient Explorationreinforcement-learning	—Unverified
Worst Cases Policy Gradients	Nov 9, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
X-MEN: Guaranteed XOR-Maximum Entropy Constrained Inverse Reinforcement Learning	Mar 22, 2022	reinforcement-learningReinforcement Learning	—Unverified
xMTF: A Formula-Free Model for Reinforcement-Learning-Based Multi-Task Fusion in Recommender Systems	Apr 8, 2025	Multi-Task LearningRecommendation Systems	—Unverified
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real	May 11, 2025	Domain AdaptationImitation Learning	—Unverified
Yes, Q-learning Helps Offline In-Context RL	Feb 24, 2025	In-Context Reinforcement LearningMuJoCo	—Unverified
You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL	Oct 5, 2021	D4RLOffline RL	—Unverified
You Only Live Once: Single-Life Reinforcement Learning	Oct 17, 2022	continuous-controlContinuous Control	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
Zermelo's problem: Optimal point-to-point navigation in 2D turbulent flows using Reinforcement Learning	Jul 17, 2019	NavigateReinforcement Learning	—Unverified
Zero-Shot Action Generalization with Limited Observations	Mar 11, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation	Oct 9, 2024	Data AugmentationDisentanglement	—Unverified
Zero Shot Learning on Simulated Robots	Oct 4, 2019	reinforcement-learningReinforcement Learning	—Unverified
Zero-Shot Policy Transfer with Disentangled Attention	Sep 25, 2019	Deep Reinforcement LearningDomain Adaptation	—Unverified
Zero-Shot Policy Transfer with Disentangled Task Representation of Meta-Reinforcement Learning	Oct 1, 2022	DisentanglementMeta Reinforcement Learning	—Unverified
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation	Jun 6, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration Under Uncertainty	May 11, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Zero-Shot Reinforcement Learning with Deep Attention Convolutional Neural Networks	Jan 2, 2020	Autonomous DrivingDeep Attention	—Unverified
Zero-Shot Reward Specification via Grounded Natural Language	Sep 29, 2021	Reinforcement Learning (RL)	—Unverified
Sim-to-Real Transfer of Robot Learning with Variable Length Inputs	Sep 20, 2018	Decision MakingDeep Reinforcement Learning	—Unverified
Zero-shot Text Classification via Reinforced Self-training	Jul 1, 2020	ClassificationGeneral Classification	—Unverified
Zero-Shot Transfer with Deictic Object-Oriented Representation in Reinforcement Learning	Dec 1, 2018	Objectreinforcement-learning	—Unverified
Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on Real-World Robots	Dec 10, 2021	continuous-controlContinuous Control	—Unverified
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach	May 3, 2024	Q-Learningreinforcement-learning	—Unverified
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer	Feb 2, 2025	Reinforcement Learning (RL)Video Generation	—Unverified
Zeroth-Order Optimization is Secretly Single-Step Policy Optimization	Jun 17, 2025	Reinforcement Learning (RL)	—Unverified
Zeroth-Order Supervised Policy Improvement	Jun 11, 2020	continuous-controlContinuous Control	—Unverified
Zeus: Efficiently Localizing Actions in Videos using Reinforcement Learning	Apr 6, 2021	Action ClassificationAction Detection	—Unverified

Show:10 25 50

← PrevPage 232 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified