Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14401–14450 of 15113 papers

Title	Date	Tasks	Status
ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games	Jul 4, 2017	Atari GamesGPU	CodeCode Available
Maintaining cooperation in complex social dilemmas using deep reinforcement learning	Jul 4, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
OPEB: Open Physical Environment Benchmark for Artificial Intelligence	Jul 4, 2017	continuous-controlContinuous Control	—Unverified
Efficient Probabilistic Performance Bounds for Inverse Reinforcement Learning	Jul 3, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Hashing over Predicted Future Frames for Informed Exploration of Deep Reinforcement Learning	Jul 3, 2017	Deep Reinforcement LearningEfficient Exploration	—Unverified
Grammatical Error Correction with Neural Reinforcement Learning	Jul 2, 2017	DecoderGrammatical Error Correction	—Unverified
Action-Decision Networks for Visual Tracking With Deep Reinforcement Learning	Jul 1, 2017	Deep Reinforcement LearningGPU	CodeCode Available
Sample-efficient Actor-Critic Reinforcement Learning with Supervised Data for Dialogue Management	Jul 1, 2017	Deep Reinforcement LearningDialogue Management	—Unverified
Neural Sequence Model Training via α-divergence Minimization	Jun 30, 2017	Machine Translationmodel	CodeCode Available
Noisy Networks for Exploration	Jun 30, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
Neural SLAM: Learning to Explore with External Memory	Jun 29, 2017	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Path Integral Networks: End-to-End Differentiable Optimal Control	Jun 29, 2017	continuous-controlContinuous Control	—Unverified
Actor-Critic Sequence Training for Image Captioning	Jun 29, 2017	AI AgentImage Captioning	—Unverified
Learning to Learn: Meta-Critic Networks for Sample Efficient Learning	Jun 29, 2017	Meta-Learningreinforcement-learning	—Unverified
Interpretability via Model Extraction	Jun 29, 2017	BIG-bench Machine Learningmodel	—Unverified
Uncertainty Decomposition in Bayesian Neural Networks with Latent Variables	Jun 26, 2017	Active Learningreinforcement-learning	—Unverified
Count-Based Exploration in Feature Space for Reinforcement Learning	Jun 25, 2017	Atari GamesEfficient Exploration	CodeCode Available
Temporal-related Convolutional-Restricted-Boltzmann-Machine capable of learning relational order via reinforcement learning procedure?	Jun 24, 2017	reinforcement-learningReinforcement Learning	—Unverified
A Self-Adaptive Proposal Model for Temporal Action Detection based on Reinforcement Learning	Jun 22, 2017	Action DetectionPosition	CodeCode Available
Structure Learning in Motor Control:A Deep Reinforcement Learning Model	Jun 21, 2017	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified
Observational Learning by Reinforcement Learning	Jun 20, 2017	reinforcement-learningReinforcement Learning	—Unverified
Toward Real-Time Decentralized Reinforcement Learning using Finite Support Basis Functions	Jun 20, 2017	reinforcement-learningReinforcement Learning	—Unverified
Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines	Jun 20, 2017	Policy Gradient Methodsreinforcement-learning	—Unverified
Data-Efficient Reinforcement Learning with Probabilistic Model Predictive Control	Jun 20, 2017	Gaussian ProcessesModel Predictive Control	CodeCode Available
Dex: Incremental Learning for Complex Environments in Deep Reinforcement Learning	Jun 19, 2017	Continual LearningDeep Reinforcement Learning	CodeCode Available
Pedestrian Prediction by Planning using Deep Neural Networks	Jun 19, 2017	Autonomous VehiclesCollision Avoidance	—Unverified
Sub-domain Modelling for Dialogue Management with Hierarchical Reinforcement Learning	Jun 19, 2017	Dialogue ManagementHierarchical Reinforcement Learning	—Unverified
Reinforcement Learning under Model Mismatch	Jun 15, 2017	modelQ-Learning	—Unverified
Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning	Jun 15, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Deep learning-based numerical methods for high-dimensional parabolic partial differential equations and backward stochastic differential equations	Jun 15, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Reinforcement Learning with Budget-Constrained Nonparametric Function Approximation for Opportunistic Spectrum Access	Jun 14, 2017	reinforcement-learningReinforcement Learning	—Unverified
On Optimistic versus Randomized Exploration in Reinforcement Learning	Jun 13, 2017	Computational Efficiencyreinforcement-learning	—Unverified
Hybrid Reward Architecture for Reinforcement Learning	Jun 13, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Device Placement Optimization with Reinforcement Learning	Jun 13, 2017	Language ModelingLanguage Modelling	CodeCode Available
Deep reinforcement learning from human preferences	Jun 12, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
ACCNet: Actor-Coordinator-Critic Net for "Learning-to-Communicate" with Deep Multi-agent Reinforcement Learning	Jun 10, 2017	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Symmetry Learning for Function Approximation in Reinforcement Learning	Jun 9, 2017	reinforcement-learningReinforcement Learning	—Unverified
Unlocking the Potential of Simulators: Design with RL in Mind	Jun 8, 2017	Decision MakingFriction	—Unverified
Efficient Reinforcement Learning via Initial Pure Exploration	Jun 7, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Parameter Space Noise for Exploration	Jun 6, 2017	continuous-controlContinuous Control	CodeCode Available
Towards Synthesizing Complex Programs from Input-Output Examples	Jun 5, 2017	Program Synthesisreinforcement-learning	—Unverified
UCB Exploration via Q-Ensembles	Jun 5, 2017	Deep Reinforcement LearningQ-Learning	—Unverified
A method for the online construction of the set of states of a Markov Decision Process using Answer Set Programming	Jun 5, 2017	Decision MakingReinforcement Learning	—Unverified
Actor-Critic for Linearly-Solvable Continuous MDP with Partially Known Dynamics	Jun 4, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Reinforcement Learning for Learning Rate Control	May 31, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
The Atari Grand Challenge Dataset	May 31, 2017	Imitation LearningReinforcement Learning	CodeCode Available
Sequential Dynamic Decision Making with Deep Neural Nets on a Test-Time Budget	May 31, 2017	Decision MakingFeature Engineering	—Unverified
Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models	May 30, 2017	Molecular Graph GenerationMusic Generation	CodeCode Available
Universal Reinforcement Learning Algorithms: Survey and Experiments	May 30, 2017	reinforcement-learningReinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 289 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified