Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4501–4525 of 15113 papers

Title	Date	Tasks	Status	Score
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization	May 25, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization	Jun 12, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Policy Search with Rare Significant Events: Choosing the Right Partner to Cooperate with	Mar 11, 2021	Evolutionary Algorithmsreinforcement-learning	CodeCode Available	5
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining	Jun 6, 2023	Knowledge DistillationModel-based Reinforcement Learning	CodeCode Available	5
ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep Reinforcement Learning	Feb 15, 2021	Bayesian InferenceDeep Reinforcement Learning	CodeCode Available	5
Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning	May 20, 2024	Meta-LearningMeta Reinforcement Learning	CodeCode Available	5
Reinforcement Learning for Channel Coding: Learned Bit-Flipping Decoding	Jun 11, 2019	Decision Makingreinforcement-learning	CodeCode Available	5
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy	Dec 5, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Viewpoint Optimization for Autonomous Strawberry Harvesting with Deep Reinforcement Learning	Mar 5, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
VIME: Variational Information Maximizing Exploration	May 31, 2016	continuous-controlContinuous Control	CodeCode Available	5
VINE: An Open Source Interactive Data Visualization Tool for Neuroevolution	May 3, 2018	Data VisualizationEvolutionary Algorithms	CodeCode Available	5
VIREL: A Variational Inference Framework for Reinforcement Learning	Nov 3, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Virtual Augmented Reality for Atari Reinforcement Learning	Oct 12, 2023	Image Segmentationreinforcement-learning	CodeCode Available	5
Virtual Replay Cache	Dec 6, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning	May 25, 2018	Imitation Learningreinforcement-learning	CodeCode Available	5
Virtual to Real Reinforcement Learning for Autonomous Driving	Apr 13, 2017	Autonomous DrivingDomain Adaptation	CodeCode Available	5
Reinforcement Learning for Control of Non-Markovian Cellular Population Dynamics	Oct 11, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards	May 25, 2018	Navigatereinforcement-learning	CodeCode Available	5
Vision-based Navigation Using Deep Reinforcement Learning	Aug 8, 2019	Deep Reinforcement LearningEfficient Neural Network	CodeCode Available	5
Policy Teaching via Environment Poisoning: Training-time Adversarial Attacks against Reinforcement Learning	Mar 28, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Neural Episodic Control	Mar 6, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Neural Improvement Heuristics for Graph Combinatorial Optimization Problems	Jun 1, 2022	Combinatorial OptimizationGraph Neural Network	CodeCode Available	5
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control	Dec 3, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Addressing Sample Complexity in Visual Tasks Using HER and Hallucinatory GANs	Jan 31, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance	Jul 16, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 181 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified