Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3141–3150 of 15113 papers

Title	Date	Tasks	Status	Hype
IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on Analyses of Interestingness	Jul 18, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	0
REX: Rapid Exploration and eXploitation for AI Agents	Jul 18, 2023	AI AgentDecision Making	—Unverified	0
Continuous-Time Reinforcement Learning: New Design Algorithms with Theoretical Insights and Performance Guarantees	Jul 18, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Quarl: A Learning-Based Quantum Circuit Optimizer	Jul 17, 2023	Reinforcement Learning (RL)	—Unverified	0
Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation	Jul 17, 2023	MuJoCoreinforcement-learning	CodeCode Available	1
An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient	Jul 17, 2023	Reinforcement Learning (RL)	—Unverified	0
Basal-Bolus Advisor for Type 1 Diabetes (T1D) Patients Using Multi-Agent Reinforcement Learning (RL) Methodology	Jul 17, 2023	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
Discovering User Types: Mapping User Traits by Task-Specific Behaviors in Reinforcement Learning	Jul 16, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning	Jul 16, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance	Jul 16, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 315 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified