Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4451–4475 of 15113 papers

Title	Date	Tasks	Status	Score
VacSIM: Learning Effective Strategies for COVID-19 Vaccine Distribution using Reinforcement Learning	Sep 14, 2020	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available	5
Multi-Agent Connected Autonomous Driving using Deep Reinforcement Learning	Nov 11, 2019	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	5
Neighborhood Mixup Experience Replay: Local Convex Interpolation for Improved Sample Efficiency in Continuous Control Tasks	May 18, 2022	continuous-controlContinuous Control	CodeCode Available	5
Multi-agent Cooperative Games Using Belief Map Assisted Training	Jun 27, 2024	Reinforcement Learning (RL)	CodeCode Available	5
On-Policy Trust Region Policy Optimisation with Replay Buffers	Jan 18, 2019	Continuous ControlDeep Reinforcement Learning	CodeCode Available	5
Value-Free Policy Optimization via Reward Partitioning	Jun 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
On Practical Reinforcement Learning: Provable Robustness, Scalability, and Statistical Efficiency	Mar 3, 2022	Offline RLreinforcement-learning	CodeCode Available	5
Meta Reinforcement Learning with Task Embedding and Shared Policy	May 16, 2019	Deep Reinforcement LearningMeta-Learning	CodeCode Available	5
Cooperative Multi-Agent Reinforcement Learning with Hypergraph Convolution	Dec 9, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Reinforcement Learning Decoders for Fault-Tolerant Quantum Computation	Oct 16, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Value Iteration for Learning Concurrently Executable Robotic Control Tasks	Apr 1, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Value Iteration Networks	Feb 9, 2016	reinforcement-learningReinforcement Learning	CodeCode Available	5
Reinforcement Learning Discovers Efficient Decentralized Graph Path Search Strategies	Sep 12, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5
Value Prediction Network	Jul 11, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
NerveNet: Learning Structured Policy with Graph Neural Networks	Jan 1, 2018	Benchmarkingcontinuous-control	CodeCode Available	5
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning	Mar 23, 2021	continuous-controlContinuous Control	CodeCode Available	5
Vanilla Gradient Descent for Oblique Decision Trees	Aug 17, 2024	Classificationregression	CodeCode Available	5
Policy Learning for Malaria Control	Oct 20, 2019	Bayesian OptimizationDecision Making	CodeCode Available	5
Policy Learning Using Weak Supervision	Oct 5, 2020	Reinforcement Learning (RL)	CodeCode Available	5
MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning	Sep 17, 2019	MuJoCoOpenAI Gym	CodeCode Available	5
Policy Mirror Descent with Lookahead	Mar 21, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Variance Networks: When Expectation Does Not Meet Your Expectations	Mar 10, 2018	Efficient ExplorationReinforcement Learning	CodeCode Available	5
Variance Reduction based Experience Replay for Policy Optimization	Aug 25, 2022	Reinforcement Learning (RL)	CodeCode Available	5
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach	Oct 7, 2022	Blockingreinforcement-learning	CodeCode Available	5
Reinforcement Learning-enhanced Shared-account Cross-domain Sequential Recommendation	Jun 16, 2022	Graph Neural NetworkHierarchical Reinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 179 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified