Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11026–11050 of 15113 papers

Title	Date	Tasks	Status
Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon Reinforcement Learning?	May 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Improving Robustness via Risk Averse Distributional Reinforcement Learning	May 1, 2020	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Exploration in Reinforcement Learning with Deep Covering Options	May 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Episodic Reinforcement Learning with Associative Memory	May 1, 2020	Atari GamesDeep Reinforcement Learning	—Unverified
Learning Efficient Parameter Server Synchronization Policies for Distributed SGD	May 1, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Synthesizing Programmatic Policies that Inductively Generalize	May 1, 2020	Deep Reinforcement LearningImitation Learning	—Unverified
Model Based Reinforcement Learning for Atari	May 1, 2020	Atari Gamesmodel	—Unverified
Model-based reinforcement learning for biological sequence design	May 1, 2020	modelModel-based Reinforcement Learning	—Unverified
Toward Evaluating Robustness of Deep Reinforcement Learning with Continuous Control	May 1, 2020	continuous-controlContinuous Control	—Unverified
Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information	May 1, 2020	counterfactualMulti-agent Reinforcement Learning	—Unverified
The Ingredients of Real World Robotic Reinforcement Learning	May 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement learning of minimalist grammars	Apr 30, 2020	reinforcement-learningReinforcement Learning	—Unverified
Unsupervised Learning of KB Queries in Task-Oriented Dialogs	Apr 30, 2020	PositionReinforcement Learning (RL)	—Unverified
Towards Embodied Scene Description	Apr 30, 2020	Imitation Learningreinforcement-learning	—Unverified
Out-of-the-box channel pruned networks	Apr 30, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Plan-Space State Embeddings for Improved Reinforcement Learning	Apr 30, 2020	reinforcement-learningReinforcement Learning	—Unverified
DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning	Apr 30, 2020	continuous-controlContinuous Control	—Unverified
GCN-RL Circuit Designer: Transferable Transistor Sizing with Graph Neural Networks and Reinforcement Learning	Apr 30, 2020	Bayesian OptimizationEvolutionary Algorithms	—Unverified
Delay-aware Resource Allocation in Fog-assisted IoT Networks Through Reinforcement Learning	Apr 30, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Improving Factual Consistency Between a Response and Persona Facts	Apr 30, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging	Apr 30, 2020	Deep Reinforcement LearningMachine Translation	—Unverified
Bootstrap Latent-Predictive Representations for Multitask Reinforcement Learning	Apr 30, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Graph-based State Representation for Deep Reinforcement Learning	Apr 29, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Reduced-Dimensional Reinforcement Learning Control using Singular Perturbation Approximations	Apr 29, 2020	Clusteringreinforcement-learning	—Unverified
Whittle index based Q-learning for restless bandits with average reward	Apr 29, 2020	Q-Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 442 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified