Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8101–8150 of 15113 papers

Title	Date	Tasks	Status	Hype
Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets Deep Reinforcement Learning	Jun 3, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
MICo: Improved representations via sampling-based state similarity for Markov decision processes	Jun 3, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available	0
A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning	Jun 3, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	CodeCode Available	1
Hyperbolically-Discounted Reinforcement Learning on Reward-Punishment Framework	Jun 3, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning	Jun 3, 2021	Clusteringreinforcement-learning	—Unverified	0
Grounding Complex Navigational Instructions Using Scene Graphs	Jun 3, 2021	Question Answeringreinforcement-learning	—Unverified	0
Towards Learning to Play Piano with Dexterous Hands and Touch	Jun 3, 2021	Reinforcement Learning (RL)	—Unverified	0
Offline Reinforcement Learning as One Big Sequence Modeling Problem	Jun 3, 2021	Imitation LearningOffline RL	CodeCode Available	1
Optimization-Based Algebraic Multigrid Coarsening Using Reinforcement Learning	Jun 3, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	0
Safe RAN control: A Symbolic Reinforcement Learning Approach	Jun 3, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Robot in a China Shop: Using Reinforcement Learning for Location-Specific Navigation Behaviour	Jun 2, 2021	Multi-Task LearningReinforcement Learning (RL)	—Unverified	0
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning	Jun 2, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Towards Deeper Deep Reinforcement Learning with Spectral Normalization	Jun 2, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Design and Comparison of Reward Functions in Reinforcement Learning for Energy Management of Sensor Nodes	Jun 2, 2021	energy managementManagement	—Unverified	0
Learning to schedule job-shop problems: Representation and policy learning using graph neural network and reinforcement learning	Jun 2, 2021	Decision MakingGraph Neural Network	—Unverified	0
Expected Scalarised Returns Dominance: A New Solution Concept for Multi-Objective Decision Making	Jun 2, 2021	Decision MakingMulti-Objective Reinforcement Learning	—Unverified	0
Decision Transformer: Reinforcement Learning via Sequence Modeling	Jun 2, 2021	Atari GamesD4RL	CodeCode Available	1
Ad Headline Generation using Self-Critical Masked Language Model	Jun 1, 2021	Headline GenerationLanguage Modeling	—Unverified	0
Quantitative Day Trading from Natural Language using Reinforcement Learning	Jun 1, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
An Entropy Regularization Free Mechanism for Policy-based Reinforcement Learning	Jun 1, 2021	Atari GamesDiversity	—Unverified	0
A Coarse to Fine Question Answering System based on Reinforcement Learning	Jun 1, 2021	Deep Reinforcement LearningQuestion Answering	—Unverified	0
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Reinforcement Learning	Jun 1, 2021	Offline RLRecommendation Systems	—Unverified	0
Search from History and Reason for Future: Two-stage Reasoning on Temporal Knowledge Graphs	Jun 1, 2021	Knowledge GraphsReinforcement Learning (RL)	—Unverified	0
Reward is enough for convex MDPs	Jun 1, 2021	Reinforcement Learning (RL)	—Unverified	0
Reinforce Security: A Model-Free Approach Towards Secure Wiretap Coding	Jun 1, 2021	Mutual Information Estimationreinforcement-learning	—Unverified	0
Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning	Jun 1, 2021	counterfactualMulti-agent Reinforcement Learning	—Unverified	0
Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs	May 31, 2021	Reinforcement Learning (RL)	—Unverified	0
Reinforcement Learning-based Dynamic Service Placement in Vehicular Networks	May 31, 2021	Edge-computingFairness	—Unverified	0
Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning	May 31, 2021	Learning TheoryMulti-agent Reinforcement Learning	—Unverified	0
Procedural Content Generation: Better Benchmarks for Transfer Reinforcement Learning	May 31, 2021	BenchmarkingDeep Learning	—Unverified	0
AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement Learning	May 31, 2021	OpenAI Gymreinforcement-learning	—Unverified	0
Deep Reinforcement Learning in Quantitative Algorithmic Trading: A Review	May 31, 2021	Algorithmic TradingDeep Reinforcement Learning	CodeCode Available	0
Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation	May 31, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1
Shaped Policy Search for Evolutionary Strategies using Waypoints	May 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Reducing the Deployment-Time Inference Control Costs of Deep Reinforcement Learning Agents via an Asymmetric Architecture	May 30, 2021	Decision MakingDeep Reinforcement Learning	—Unverified	0
Predictive Representation Learning for Language Modeling	May 29, 2021	Language ModelingLanguage Modelling	—Unverified	0
A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles	May 29, 2021	Autonomous DrivingAutonomous Vehicles	—Unverified	0
Gradient-Free Neural Network Training via Synaptic-Level Reinforcement Learning	May 29, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
On the Theory of Reinforcement Learning with Once-per-Episode Feedback	May 29, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning for on-line Sequence Transformation	May 28, 2021	Machine Translationreinforcement-learning	—Unverified	0
Reinforcement Learning reveals fundamental limits on the mixing of active particles	May 28, 2021	Open-Ended Question Answeringreinforcement-learning	—Unverified	0
Reconfigurable Intelligent Surface-assisted Multi-UAV Networks: Efficient Resource Allocation with Deep Reinforcement Learning	May 28, 2021	Decision MakingDeep Reinforcement Learning	—Unverified	0
Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm	May 28, 2021	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified	0
A nearly Blackwell-optimal policy gradient method	May 28, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	0
Learning Approximate and Exact Numeral Systems via Reinforcement Learning	May 28, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Improving Generalization in Meta-RL with Imaginary Tasks from Latent Dynamics Mixture	May 28, 2021	Meta Reinforcement LearningMuJoCo	CodeCode Available	1
Stochastic Intervention for Causal Inference via Reinforcement Learning	May 28, 2021	Causal InferenceDecision Making	—Unverified	0
Task-Guided Inverse Reinforcement Learning Under Partial Information	May 28, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications	May 28, 2021	Autonomous VehiclesDeep Reinforcement Learning	—Unverified	0
Towards mental time travel: a hierarchical memory for reinforcement learning agents	May 28, 2021	Meta-LearningNavigate	CodeCode Available	1

Show:10 25 50

← PrevPage 163 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified