Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13751–13800 of 15113 papers

Title	Date	Tasks	Status
Deep Pepper: Expert Iteration based Chess agent in the Reinforcement Learning Setting	Jun 2, 2018	reinforcement-learningReinforcement Learning	—Unverified
Efficient Entropy for Policy Gradient with Multidimensional Action Space	Jun 2, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition	Jun 1, 2018	Action RecognitionDeep Reinforcement Learning	—Unverified
Fast Exploration with Simplified Models and Approximately Optimistic Planning in Model Based Reinforcement Learning	Jun 1, 2018	Model-based Reinforcement LearningObject	—Unverified
Integrating Episodic Memory into a Reinforcement Learning Agent using Reservoir Sampling	Jun 1, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Bootstrapping a Neural Conversational Agent with Dialogue Self-Play, Crowdsourcing and On-Line Reinforcement Learning	Jun 1, 2018	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Improved Sample Complexity for Stochastic Compositional Variance Reduced Gradient	Jun 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Inference Aided Reinforcement Learning for Incentive Mechanism Design in Crowdsourcing	Jun 1, 2018	Bayesian Inferencereinforcement-learning	—Unverified
A Reinforcement Learning Approach to Age of Information in Multi-User Networks	Jun 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Deep Reinforcement Learning of Region Proposal Networks for Object Detection	Jun 1, 2018	Deep Reinforcement LearningObject	CodeCode Available
Environment Upgrade Reinforcement Learning for Non-Differentiable Multi-Stage Pipelines	Jun 1, 2018	Instance SegmentationPose Estimation	—Unverified
GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning	Jun 1, 2018	BinarizationDeep Reinforcement Learning	—Unverified
Equivalence Between Wasserstein and Value-Aware Loss for Model-based Reinforcement Learning	Jun 1, 2018	Model-based Reinforcement Learningreinforcement-learning	—Unverified
SeedNet: Automatic Seed Generation With Deep Reinforcement Learning for Robust Interactive Segmentation	Jun 1, 2018	Deep Reinforcement LearningInteractive Segmentation	—Unverified
Mining Evidences for Concept Stock Recommendation	Jun 1, 2018	Deep Reinforcement LearningInformation Retrieval	—Unverified
Quality Signals in Generated Stories	Jun 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Sequential Attacks on Agents for Long-Term Adversarial Goals	May 31, 2018	Adversarial AttackReinforcement Learning	—Unverified
Transfer Learning for Related Reinforcement Learning Tasks via Image-to-Image Translation	May 31, 2018	Image-to-Image TranslationImitation Learning	CodeCode Available
Reinforced Continual Learning	May 31, 2018	Continual LearningGeneral Classification	CodeCode Available
Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update	May 31, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Learning a Prior over Intent via Meta-Inverse Reinforcement Learning	May 31, 2018	reinforcement-learningReinforcement Learning	—Unverified
Evaluating Reinforcement Learning Algorithms in Observational Health Settings	May 31, 2018	BIG-bench Machine LearningDecision Making	—Unverified
Adversarial Learning of Task-Oriented Neural Dialog Models	May 30, 2018	Dialog LearningReinforcement Learning	—Unverified
Bayesian Inference with Anchored Ensembles of Neural Networks, and Application to Exploration in Reinforcement Learning	May 29, 2018	Bayesian Inferencereinforcement-learning	CodeCode Available
Depth and nonlinearity induce implicit exploration for RL	May 29, 2018	Q-Learningreinforcement-learning	—Unverified
Observe and Look Further: Achieving Consistent Performance on Atari	May 29, 2018	Atari GamesDeep Reinforcement Learning	—Unverified
Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition	May 29, 2018	continuous-controlContinuous Control	—Unverified
Supervised Policy Update for Deep Reinforcement Learning	May 29, 2018	Deep Reinforcement LearningMuJoCo	CodeCode Available
Virtuously Safe Reinforcement Learning	May 29, 2018	reinforcement-learningReinforcement Learning	—Unverified
Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning	May 29, 2018	Imitation Learningreinforcement-learning	—Unverified
Value Propagation Networks	May 28, 2018	Navigatereinforcement-learning	—Unverified
Memory Augmented Self-Play	May 28, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Hierarchical clustering with deep Q-learning	May 28, 2018	ClusteringQ-Learning	—Unverified
Importance Weighted Transfer of Samples in Reinforcement Learning	May 28, 2018	reinforcement-learningReinforcement Learning	—Unverified
Fingerprint Policy Optimisation for Robust Reinforcement Learning	May 27, 2018	Bayesian OptimisationContinuous Control	—Unverified
Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning	May 27, 2018	Machine TranslationNMT	CodeCode Available
Fast Policy Learning through Imitation and Reinforcement	May 26, 2018	Imitation LearningReinforcement Learning	—Unverified
Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation	May 26, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Finite Sample Analysis of LSTD with Random Projections and Eligibility Traces	May 25, 2018	reinforcement-learningReinforcement Learning	—Unverified
Detecting Deceptive Reviews using Generative Adversarial Networks	May 25, 2018	General ClassificationReinforcement Learning	—Unverified
A Sliding-Window Algorithm for Markov Decision Processes with Arbitrarily Changing Rewards and Transitions	May 25, 2018	reinforcement-learningReinforcement Learning	—Unverified
Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning	May 25, 2018	Imitation Learningreinforcement-learning	CodeCode Available
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Reinforced Extractive Summarization with Question-Focused Rewards	May 25, 2018	Extractive Summarizationreinforcement-learning	—Unverified
Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards	May 25, 2018	Navigatereinforcement-learning	CodeCode Available
Resource Allocation for a Wireless Coexistence Management System Based on Reinforcement Learning	May 24, 2018	Managementreinforcement-learning	—Unverified
Meta-Gradient Reinforcement Learning	May 24, 2018	Meta-Learningreinforcement-learning	CodeCode Available
Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning	May 24, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
A0C: Alpha Zero in Continuous Action Space	May 24, 2018	Board Gamesreinforcement-learning	CodeCode Available
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 276 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified