Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4551–4575 of 15113 papers

Title	Date	Tasks	Status	Score
Post Reinforcement Learning Inference	Feb 17, 2023	counterfactualOff-policy evaluation	CodeCode Available	5
Posterior-regularized REINFORCE for Instance Selection in Distant Supervision	Apr 17, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Learning to Score Behaviors for Guided Policy Optimization	Jun 11, 2019	Efficient ExplorationImitation Learning	CodeCode Available	5
Neural Modular Control for Embodied Question Answering	Oct 26, 2018	Embodied Question AnsweringImitation Learning	CodeCode Available	5
Self-Guided Evolution Strategies with Historical Estimated Gradients	Apr 20, 2020	Reinforcement Learning (RL)	CodeCode Available	5
WaveCorr: Correlation-savvy Deep Reinforcement Learning for Portfolio Management	Sep 14, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Posterior Sampling for Reinforcement Learning Without Episodes	Aug 9, 2016	reinforcement-learningReinforcement Learning	CodeCode Available	5
MASAI: Multi-agent Summative Assessment Improvement for Unsupervised Environment Design	Jun 13, 2021	Heuristic Searchreinforcement-learning	CodeCode Available	5
Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards	Oct 14, 2020	Imitation LearningMuJoCo	CodeCode Available	5
MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence	Dec 2, 2017	GPUMulti-agent Reinforcement Learning	CodeCode Available	5
Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement Learning	Jul 25, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	5
Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages	Mar 17, 2021	Autonomous Vehiclesreinforcement-learning	CodeCode Available	5
Weakly Supervised Scene Text Detection using Deep Reinforcement Learning	Jan 13, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
On the Generalization of Representations in Reinforcement Learning	Mar 1, 2022	Atari Gamesreinforcement-learning	CodeCode Available	5
Self-Learning Exploration and Mapping for Mobile Robots via Deep Reinforcement Learning	Jan 6, 2019	Computational EfficiencyDeep Reinforcement Learning	CodeCode Available	5
Weak Supervision for Fake News Detection via Reinforcement Learning	Dec 28, 2019	ArticlesFake News Detection	CodeCode Available	5
Learning to Play Text-based Adventure Games with Maximum Entropy Reinforcement Learning	Feb 21, 2023	Q-Learningreinforcement-learning	CodeCode Available	5
Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning	Feb 20, 2023	reinforcement-learningReinforcement Learning	CodeCode Available	5
MICo: Improved representations via sampling-based state similarity for Markov decision processes	Jun 3, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator	Dec 7, 2023	Offline RLreinforcement-learning	CodeCode Available	5
Self-Paced Context Evaluation for Contextual Reinforcement Learning	Jun 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks	Feb 25, 2016	Deep Reinforcement LearningImage Classification	CodeCode Available	5
Welfare and Fairness in Multi-objective Reinforcement Learning	Nov 30, 2022	FairnessMulti-Objective Reinforcement Learning	CodeCode Available	5
Learning Progress Driven Multi-Agent Curriculum	May 20, 2022	Multi-agent Reinforcement LearningOpen-Ended Question Answering	CodeCode Available	5
Reinforcement Learning for Market Making in a Multi-agent Dealer Market	Nov 14, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 183 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified