Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7151–7175 of 15113 papers

Title	Date	Tasks	Status
Variational Inference for Policy Gradient	Feb 21, 2018	reinforcement-learningReinforcement Learning	—Unverified
Variational Inference MPC for Bayesian Model-based Reinforcement Learning	Jul 8, 2019	Bayesian InferenceModel-based Reinforcement Learning	—Unverified
Variational Intrinsic Control Revisited	Oct 7, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition	May 29, 2018	continuous-controlContinuous Control	—Unverified
Variational Meta Reinforcement Learning for Social Robotics	Jun 7, 2022	Meta Reinforcement LearningNavigate	—Unverified
Variational Model-based Policy Optimization	Jun 9, 2020	continuous-controlContinuous Control	—Unverified
Variational multiscale reinforcement learning for discovering reduced order closure models of nonlinear spatiotemporal transport systems	Jul 7, 2022	Reinforcement Learning (RL)	—Unverified
Variational oracle guiding for reinforcement learning	Sep 29, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Variational Policy Gradient Method for Reinforcement Learning with General Utilities	Jul 4, 2020	reinforcement-learningReinforcement Learning	—Unverified
Variational quantum compiling with double Q-learning	Mar 22, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Parametrized quantum policies for reinforcement learning	Mar 9, 2021	Benchmarkingreinforcement-learning	—Unverified
Policy Gradients using Variational Quantum Circuits	Mar 20, 2022	BenchmarkingQuantum Machine Learning	—Unverified
Variational Quantum Reinforcement Learning via Evolutionary Optimization	Sep 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Variational Quantum Soft Actor-Critic for Robotic Arm Control	Dec 20, 2022	continuous-controlContinuous Control	—Unverified
Variational Regret Bounds for Reinforcement Learning	May 14, 2019	General Reinforcement Learningreinforcement-learning	—Unverified
Variational Reward Estimator Bottleneck: Learning Robust Reward Estimator for Multi-Domain Task-Oriented Dialog	May 31, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks	Jul 17, 2025	MathMathematical Reasoning	—Unverified
VASE: Variational Assorted Surprise Exploration for Reinforcement Learning	Oct 31, 2019	continuous-controlContinuous Control	—Unverified
Vehicle Tracking in Wireless Sensor Networks via Deep Reinforcement Learning	Feb 22, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Vehicle Type Specific Waypoint Generation	Aug 9, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Vehicular Cooperative Perception Through Action Branching and Federated Reinforcement Learning	Dec 7, 2020	reinforcement-learningReinforcement Learning	—Unverified
Verifiable Reinforcement Learning Systems via Compositionality	Sep 9, 2023	reinforcement-learningReinforcement Learning	—Unverified
Verification of Dissipativity and Evaluation of Storage Function in Economic Nonlinear MPC using Q-Learning	May 24, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers	Oct 10, 2024	Mathematical ReasoningQ-Learning	—Unverified
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models	May 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 287 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified