Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7226–7250 of 15113 papers

Title	Date	Tasks	Status
VOQL: Towards Optimal Regret in Model-free RL with Nonlinear Function Approximation	Dec 12, 2022	Q-Learningregression	—Unverified
Voting-Based Multi-Agent Reinforcement Learning for Intelligent IoT	Jul 2, 2019	Decision MakingMulti-agent Reinforcement Learning	—Unverified
VPE: Variational Policy Embedding for Transfer Reinforcement Learning	Sep 10, 2018	reinforcement-learningReinforcement Learning	—Unverified
VRAIL: Vectorized Reward-based Attribution for Interpretable Learning	Jun 19, 2025	Reinforcement Learning (RL)	—Unverified
VRLS: A Unified Reinforcement Learning Scheduler for Vehicle-to-Vehicle Communications	Jul 22, 2019	reinforcement-learningReinforcement Learning	—Unverified
Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning	Feb 11, 2025	Decision Makingreinforcement-learning	—Unverified
Vulcan: Solving the Steiner Tree Problem with Graph Neural Networks and Deep Reinforcement Learning	Nov 21, 2021	Combinatorial OptimizationDeep Reinforcement Learning	—Unverified
Vulnerability-Aware Poisoning Mechanism for Online RL with Unknown Dynamics	Sep 2, 2020	Reinforcement Learning (RL)	—Unverified
WAD: A Deep Reinforcement Learning Agent for Urban Autonomous Driving	Aug 27, 2021	Atari GamesAutonomous Driving	—Unverified
Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement Learning	Nov 6, 2022	Decision MakingOffline RL	—Unverified
Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap	Jun 20, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Warmth and competence in human-agent cooperation	Jan 31, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes	Jul 3, 2024	Reinforcement Learning (RL)	—Unverified
Warren at SemEval-2020 Task 4: ALBERT and Multi-Task Learning for Commonsense Validation	Dec 1, 2020	Multi-Task Learningreinforcement-learning	—Unverified
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control	Mar 4, 2023	MuJoCoQ-Learning	—Unverified
Wasserstein Adversarial Imitation Learning	Jun 19, 2019	Imitation Learningreinforcement-learning	—Unverified
Wasserstein Dependency Measure for Representation Learning	Mar 28, 2019	Object Recognitionreinforcement-learning	—Unverified
Wasserstein Robust Reinforcement Learning	Jul 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Wasserstein Unsupervised Reinforcement Learning	Oct 15, 2021	Hierarchical Reinforcement LearningMuJoCo	—Unverified
Watch from sky: machine-learning-based multi-UAV network for predictive police surveillance	Mar 6, 2022	BIG-bench Machine Learningreinforcement-learning	—Unverified
Stop-and-Go: Exploring Backdoor Attacks on Deep Reinforcement Learning-based Traffic Congestion Control Systems	Mar 17, 2020	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
WaveCorr: Deep Reinforcement Learning with Permutation Invariant Policy Networks for Portfolio Management	Sep 29, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog	Jun 30, 2019	Deep Reinforcement LearningOpen-Domain Dialog	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
On L_2-consistency of nearest neighbor matching	Feb 6, 2019	Causal InferenceDomain Adaptation	—Unverified

Show:10 25 50

← PrevPage 290 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified