Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5276–5300 of 15113 papers

Title	Date	Tasks	Status
Reversible Action Design for Combinatorial Optimization with Reinforcement Learning	Feb 14, 2021	Combinatorial OptimizationQ-Learning	—Unverified
Reversible Action Design for Combinatorial Optimization with ReinforcementLearning	Nov 24, 2021	Combinatorial OptimizationQ-Learning	—Unverified
Reversible Upper Confidence Bound Algorithm to Generate Diverse Optimized Candidates	Dec 30, 2021	Drug Discoveryreinforcement-learning	—Unverified
Review, Analysis and Design of a Comprehensive Deep Reinforcement Learning Framework	Feb 27, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Review of Metrics to Measure the Stability, Robustness and Resilience of Reinforcement Learning	Mar 22, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Revised Progressive-Hedging-Algorithm Based Two-layer Solution Scheme for Bayesian Reinforcement Learning	Jun 21, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Revisiting Design Choices in Offline Model-Based Reinforcement Learning	Oct 8, 2021	Bayesian OptimizationModel-based Reinforcement Learning	—Unverified
Revisiting Design Choices in Offline Model Based Reinforcement Learning	May 21, 2021	Bayesian OptimizationModel-based Reinforcement Learning	—Unverified
Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement Learning	Jan 20, 2023	continuous-controlContinuous Control	—Unverified
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach	Apr 21, 2022	continuous-controlContinuous Control	—Unverified
Revisiting Peng's Q(λ) for Modern Reinforcement Learning	Feb 27, 2021	continuous-controlContinuous Control	—Unverified
Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning	Jun 15, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous	Sep 25, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints	Dec 28, 2022	Decision MakingOffline RL	—Unverified
Revisiting the Master-Slave Architecture in Multi-Agent Deep Reinforcement Learning	Dec 20, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
Revisiting the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning	Sep 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Revisiting the Roles of “Text” in Text Games	Jan 16, 2022	Natural Language UnderstandingPassage Retrieval	—Unverified
Revisiting the Roles of "Text" in Text Games	Oct 15, 2022	Natural Language UnderstandingPassage Retrieval	—Unverified
Revolutionizing Genomics with Reinforcement Learning Techniques	Feb 26, 2023	Decision Makingreinforcement-learning	—Unverified
REvolve: Reward Evolution with Large Language Models using Human Feedback	Jun 3, 2024	Autonomous DrivingReinforcement Learning (RL)	—Unverified
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning	May 17, 2023	Offline RLreinforcement-learning	—Unverified
Reward-Aware Proto-Representations in Reinforcement Learning	May 22, 2025	reinforcement-learningReinforcement Learning	—Unverified
Reward-Balancing for Statistical Spoken Dialogue Systems using Multi-objective Reinforcement Learning	Jul 19, 2017	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Reward Constrained Interactive Recommendation with Natural Language Feedback	May 4, 2020	Interactive RecommendationRecommendation Systems	—Unverified

Show:10 25 50

← PrevPage 212 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified