Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2051–2100 of 15113 papers

Title	Date	Tasks	Status	Hype
A Deep Reinforcement Learning Algorithm Using Dynamic Attention Model for Vehicle Routing Problems	Feb 9, 2020	Combinatorial OptimizationDecoder	CodeCode Available	1
Provably Efficient Online Hyperparameter Optimization with Population-Based Bandits	Feb 6, 2020	Hyperparameter OptimizationReinforcement Learning	CodeCode Available	1
Attractive or Faithful? Popularity-Reinforced Learning for Inspired Headline Generation	Feb 6, 2020	ArticlesHeadline Generation	CodeCode Available	1
Multi Type Mean Field Reinforcement Learning	Feb 6, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Soft Hindsight Experience Replay	Feb 6, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Does the Markov Decision Process Fit the Data: Testing for the Markov Property in Sequential Decision Making	Feb 5, 2020	Decision Makingreinforcement-learning	CodeCode Available	1
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework	Feb 5, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Effective Diversity in Population Based Reinforcement Learning	Feb 3, 2020	DiversityPoint Processes	CodeCode Available	1
Integrating Deep Reinforcement Learning with Model-based Path Planners for Automated Driving	Feb 2, 2020	Deep Reinforcement LearningNavigate	CodeCode Available	1
Towards the Systematic Reporting of the Energy and Carbon Footprints of Machine Learning	Jan 31, 2020	BIG-bench Machine Learningreinforcement-learning	CodeCode Available	1
Goal-directed graph construction using reinforcement learning	Jan 30, 2020	Decision Makinggraph construction	CodeCode Available	1
PCGRL: Procedural Content Generation via Reinforcement Learning	Jan 24, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning	Jan 23, 2020	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available	1
Graph Constrained Reinforcement Learning for Natural Language Action Spaces	Jan 23, 2020	Action GenerationNatural Language Understanding	CodeCode Available	1
On Simple Reactive Neural Networks for Behaviour-Based Reinforcement Learning	Jan 22, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
SARL*: Deep Reinforcement Learning based Human-Aware Navigation for Mobile Robot in Indoor Environments	Jan 20, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Discriminator Soft Actor Critic without Extrinsic Rewards	Jan 19, 2020	Imitation LearningQ-Learning	CodeCode Available	1
Gradient Surgery for Multi-Task Learning	Jan 19, 2020	Deep Reinforcement Learningimage-classification	CodeCode Available	1
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video	Jan 18, 2020	Decision Makingreinforcement-learning	CodeCode Available	1
Lipschitz Lifelong Reinforcement Learning	Jan 15, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning	Jan 14, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
GridMask Data Augmentation	Jan 13, 2020	Data Augmentationobject-detection	CodeCode Available	1
POPCORN: Partially Observed Prediction COnstrained ReiNforcement Learning	Jan 13, 2020	Decision MakingPrediction	CodeCode Available	1
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors	Jan 9, 2020	continuous-controlContinuous Control	CodeCode Available	1
Population-Guided Parallel Policy Search for Reinforcement Learning	Jan 9, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Reinforcement Learning via Fenchel-Rockafellar Duality	Jan 7, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
Deep Reinforcement Learning for Active Human Pose Estimation	Jan 7, 2020	3D Human Pose EstimationDeep Reinforcement Learning	CodeCode Available	1
A Boolean Task Algebra for Reinforcement Learning	Jan 6, 2020	Lifelong learningNegation	CodeCode Available	1
Represented Value Function Approach for Large Scale Multi Agent Reinforcement Learning	Jan 4, 2020	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
MushroomRL: Simplifying Reinforcement Learning Research	Jan 4, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	1
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies	Jan 1, 2020	Efficient ExplorationMeta Reinforcement Learning	CodeCode Available	1
CURL: Contrastive Unsupervised Representation Learning for Reinforcement Learning	Jan 1, 2020	Contrastive Learningreinforcement-learning	CodeCode Available	1
An Optimistic Perspective on Offline Deep Reinforcement Learning	Jan 1, 2020	Atari GamesDeep Reinforcement Learning	CodeCode Available	1
Variational Imitation Learning with Diverse-quality Demonstrations	Jan 1, 2020	continuous-controlContinuous Control	CodeCode Available	1
Bridging the Gap Between f-GANs and Wasserstein GANs	Jan 1, 2020	Density Ratio EstimationImage Generation	CodeCode Available	1
Learning to Navigate in Synthetically Accessible Chemical Space Using Reinforcement Learning	Jan 1, 2020	Drug DiscoveryNavigate	CodeCode Available	1
Prediction-Guided Multi-Objective Reinforcement Learning for Continuous Robot Control	Jan 1, 2020	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available	1
PAC Confidence Sets for Deep Neural Networks via Calibrated Prediction	Dec 31, 2019	Generalization BoundsLearning Theory	CodeCode Available	1
Pseudo Random Number Generation: a Reinforcement Learning approach	Dec 15, 2019	BIG-bench Machine Learningreinforcement-learning	CodeCode Available	1
Imitation Learning via Off-Policy Distribution Matching	Dec 10, 2019	Imitation LearningReinforcement Learning	CodeCode Available	1
VALAN: Vision and Language Agent Navigation	Dec 6, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning	Dec 4, 2019	DecoderMulti-agent Reinforcement Learning	CodeCode Available	1
Dream to Control: Learning Behaviors by Latent Imagination	Dec 3, 2019	Continuous Controlreinforcement-learning	CodeCode Available	1
LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning	Dec 1, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
Staying up to Date with Online Content Changes Using Reinforcement Learning for Scheduling	Dec 1, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	1
ORL: Reinforcement Learning Benchmarks for Online Stochastic Optimization Problems	Nov 24, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	1
Combinatorial Optimization by Graph Pointer Networks and Hierarchical Reinforcement Learning	Nov 12, 2019	Combinatorial OptimizationGraph Embedding	CodeCode Available	1
A Deep Reinforcement Learning Approach to First-Order Logic Theorem Proving	Nov 5, 2019	Automated Theorem ProvingDeep Reinforcement Learning	CodeCode Available	1
PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning	Oct 31, 2019	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 42 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified