Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15101–15113 of 15113 papers

Title	Date	Tasks	Status
Structure Learning in Human Sequential Decision-Making	Dec 1, 2008	Decision Makingreinforcement-learning	—Unverified
Optimization on a Budget: A Reinforcement Learning Approach	Dec 1, 2008	Object Trackingreinforcement-learning	—Unverified
Near-optimal Regret Bounds for Reinforcement Learning	Dec 1, 2008	reinforcement-learningReinforcement Learning	—Unverified
Temporal Difference Based Actor Critic Learning - Convergence and Neural Implementation	Dec 1, 2008	reinforcement-learningReinforcement Learning	—Unverified
Quantum reinforcement learning	Oct 21, 2008	reinforcement-learningReinforcement Learning	CodeCode Available
An Object-Oriented Representation for Efficient Reinforcement Learning	Jul 1, 2008	Objectreinforcement-learning	CodeCode Available
Fitted Q-iteration in continuous action-space MDPs	Dec 1, 2007	reinforcement-learningReinforcement Learning	—Unverified
Receding Horizon Differential Dynamic Programming	Dec 1, 2007	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Online Linear Regression and Its Application to Model-Based Reinforcement Learning	Dec 1, 2007	Model-based Reinforcement Learningregression	—Unverified
Least-Squares Policy Iteration	Dec 4, 2003	Q-Learningreinforcement-learning	CodeCode Available
Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition	May 21, 1999	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available
FROM DEEP LEARNING TO DEEP DEDUCING: AUTOMATICALLY TRACKING DOWN NASH EQUILIBRIUM THROUGH AUTONOMOUS NEURAL AGENT, A POSSIBLE MISSING STEP TOWARD GENERAL A.I.	—	reinforcement-learningReinforcement Learning	—Unverified
Accidental exploration through value predictors	—	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 303 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified