Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11451–11500 of 15113 papers

Title	Date	Tasks	Status
Visual Tracking by means of Deep Reinforcement Learning and an Expert Demonstrator	Sep 18, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Visuomotor Mechanical Search: Learning to Retrieve Target Objects in Clutter	Aug 13, 2020	Deep Reinforcement LearningObject	—Unverified
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data	Mar 23, 2025	Reinforcement Learning (RL)	—Unverified
Vizarel: A System to Help Better Understand RL Agents	Jul 10, 2020	reinforcement-learningReinforcement Learning	—Unverified
VLMLight: Traffic Signal Control via Vision-Language Meta-Control and Dual-Branch Reasoning	May 26, 2025	Large Language ModelReinforcement Learning (RL)	—Unverified
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making	May 6, 2025	Decision MakingGeneral Knowledge	—Unverified
VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving	Dec 20, 2024	Autonomous DrivingComputational Efficiency	—Unverified
VLP: Vision-Language Preference Learning for Embodied Manipulation	Feb 17, 2025	Reinforcement Learning (RL)	—Unverified
VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving	May 22, 2025	Autonomous DrivingReinforcement Learning (RL)	—Unverified
VMAV-C: A Deep Attention-based Reinforcement Learning Algorithm for Model-based Control	Dec 24, 2018	Deep AttentionModel-based Reinforcement Learning	—Unverified
vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement	May 14, 2024	Decision MakingReinforcement Learning (RL)	—Unverified
VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play	Feb 4, 2025	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
VOQL: Towards Optimal Regret in Model-free RL with Nonlinear Function Approximation	Dec 12, 2022	Q-Learningregression	—Unverified
Voting-Based Multi-Agent Reinforcement Learning for Intelligent IoT	Jul 2, 2019	Decision MakingMulti-agent Reinforcement Learning	—Unverified
VPE: Variational Policy Embedding for Transfer Reinforcement Learning	Sep 10, 2018	reinforcement-learningReinforcement Learning	—Unverified
VRAIL: Vectorized Reward-based Attribution for Interpretable Learning	Jun 19, 2025	Reinforcement Learning (RL)	—Unverified
VRLS: A Unified Reinforcement Learning Scheduler for Vehicle-to-Vehicle Communications	Jul 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning	Feb 11, 2025	Decision Makingreinforcement-learning	—Unverified
Vulcan: Solving the Steiner Tree Problem with Graph Neural Networks and Deep Reinforcement Learning	Nov 21, 2021	Combinatorial OptimizationDeep Reinforcement Learning	—Unverified
Vulnerability-Aware Poisoning Mechanism for Online RL with Unknown Dynamics	Sep 2, 2020	Reinforcement Learning (RL)	—Unverified
WAD: A Deep Reinforcement Learning Agent for Urban Autonomous Driving	Aug 27, 2021	Atari GamesAutonomous Driving	—Unverified
Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning	Nov 6, 2022	Decision MakingOffline RL	—Unverified
Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap	Jun 20, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Warmth and competence in human-agent cooperation	Jan 31, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes	Jul 3, 2024	Reinforcement Learning (RL)	—Unverified
Warren at SemEval-2020 Task 4: ALBERT and Multi-Task Learning for Commonsense Validation	Dec 1, 2020	Multi-Task Learningreinforcement-learning	—Unverified
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control	Mar 4, 2023	MuJoCoQ-Learning	—Unverified
Wasserstein Adversarial Imitation Learning	Jun 19, 2019	Imitation Learningreinforcement-learning	—Unverified
Wasserstein Dependency Measure for Representation Learning	Mar 28, 2019	Object Recognitionreinforcement-learning	—Unverified
Wasserstein Robust Reinforcement Learning	Jul 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Wasserstein Unsupervised Reinforcement Learning	Oct 15, 2021	Hierarchical Reinforcement LearningMuJoCo	—Unverified
Watch from sky: machine-learning-based multi-UAV network for predictive police surveillance	Mar 6, 2022	BIG-bench Machine Learningreinforcement-learning	—Unverified
Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems	Mar 17, 2020	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
WaveCorr: Deep Reinforcement Learning with Permutation Invariant Policy Networks for Portfolio Management	Sep 29, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog	Jun 30, 2019	Deep Reinforcement LearningOpen-Domain Dialog	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
On L_2-consistency of nearest neighbor matching	Feb 6, 2019	Causal InferenceDomain Adaptation	—Unverified
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning	Feb 28, 2022	Positionreinforcement-learning	—Unverified
Weakly-Supervised Learning of Disentangled and Interpretable Skills for Hierarchical Reinforcement Learning	Sep 29, 2021	DecoderHierarchical Reinforcement Learning	—Unverified
Weakly-Supervised Reinforcement Learning for Controllable Behavior	Apr 6, 2020	continuous-controlContinuous Control	—Unverified
Weakly Supervised Video Summarization by Hierarchical Reinforcement Learning	Jan 12, 2020	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Weakness Analysis of Cyberspace Configuration Based on Reinforcement Learning	Jul 9, 2020	reinforcement-learningReinforcement Learning	—Unverified
Weber-Fechner Law in Temporal Difference learning derived from Control as Inference	Dec 30, 2024	Reinforcement Learning (RL)	—Unverified
WebWISE: Web Interface Control and Sequential Exploration with Large Language Models	Oct 24, 2023	Imitation LearningIn-Context Learning	—Unverified
Weighted Bellman Backups for Improved Signal-to-Noise in Q-Updates	Jan 1, 2021	Deep Reinforcement LearningQ-Learning	—Unverified
Weighted Double Deep Multiagent Reinforcement Learning in Stochastic Cooperative Environments	Feb 23, 2018	Deep Reinforcement LearningQ-Learning	—Unverified
Weighted Entropy Modification for Soft Actor-Critic	Nov 18, 2020	MuJoCoreinforcement-learning	—Unverified
Weighted Likelihood Policy Search with Model Selection	Dec 1, 2012	modelModel Selection	—Unverified
Weighted Maximum Entropy Inverse Reinforcement Learning	Aug 20, 2022	Imitation Learningreinforcement-learning	—Unverified
Weighted model estimation for offline model-based reinforcement learning	Dec 1, 2021	Density Ratio Estimationmodel	—Unverified

Show:10 25 50

← PrevPage 230 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified