Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13601–13650 of 15113 papers

Title	Date	Tasks	Status
Virtual Replay Cache	Dec 6, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available
Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning	May 25, 2018	Imitation Learningreinforcement-learning	CodeCode Available
Model-Free Episodic Control	Jun 14, 2016	Decision MakingDeep Reinforcement Learning	CodeCode Available
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach	Oct 7, 2022	Blockingreinforcement-learning	CodeCode Available
Suphx: Mastering Mahjong with Deep Reinforcement Learning	Mar 30, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Neural Improvement Heuristics for Graph Combinatorial Optimization Problems	Jun 1, 2022	Combinatorial OptimizationGraph Neural Network	CodeCode Available
Efficient Parallel Reinforcement Learning Framework using the Reactor Model	Dec 7, 2023	OpenAI GymQ-Learning	CodeCode Available
Scaling Laws for a Multi-Agent Reinforcement Learning Model	Sep 29, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Towards Better Interpretability in Deep Q-Networks	Sep 15, 2018	Deep Reinforcement LearningQ-Learning	CodeCode Available
Neural Episodic Control	Mar 6, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Optimizing Differentiable Relaxations of Coreference Evaluation Metrics	Apr 14, 2017	Imitation Learningreinforcement-learning	CodeCode Available
Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning	May 27, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Query Focused Multi-document Summarisation of Biomedical Texts: Macquarie Universiy and the Australian National University at BioASQ8b	Aug 27, 2020	regressionreinforcement-learning	CodeCode Available
MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments	Mar 7, 2019	Atari Gamesreinforcement-learning	CodeCode Available
Query Focused Multi-document Summarisation of Biomedical Texts	Aug 27, 2020	regressionreinforcement-learning	CodeCode Available
Surprising Negative Results for Generative Adversarial Tree Search	Jun 15, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
Towards biologically plausible Dreaming and Planning in recurrent spiking networks	May 20, 2022	Autonomous DrivingModel-based Reinforcement Learning	CodeCode Available
Virtual to Real Reinforcement Learning for Autonomous Driving	Apr 13, 2017	Autonomous DrivingDomain Adaptation	CodeCode Available
Optimized Recommender Systems with Deep Reinforcement Learning	Oct 6, 2021	Deep Reinforcement LearningRecommendation Systems	CodeCode Available
Budgeted Reinforcement Learning in Continuous State Space	Mar 3, 2019	Autonomous DrivingDeep Reinforcement Learning	CodeCode Available
Using reinforcement learning to find an optimal set of features	Dec 1, 2013	feature selectionreinforcement-learning	CodeCode Available
Optimization-Based Algebraic Multigrid Coarsening Using Reinforcement Learning	Jun 3, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Surveillance Evasion Through Bayesian Reinforcement Learning	Sep 30, 2021	regressionreinforcement-learning	CodeCode Available
Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep Reinforcement Learning	Aug 18, 2020	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available
Memory-Efficient Episodic Control Reinforcement Learning with Dynamic Online k-means	Nov 21, 2019	Atari GamesClustering	CodeCode Available
Using reinforcement learning to improve drone-based inference of greenhouse gas fluxes	Jan 8, 2024	Reinforcement Learning (RL)	CodeCode Available
Using reinforcement learning to learn how to play text-based games	Jan 6, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Motion Planning Among Dynamic, Decision-Making Agents with Deep Reinforcement Learning	May 4, 2018	Collision AvoidanceDecision Making	CodeCode Available
Mo' States Mo' Problems: Emergency Stop Mechanisms from Observation	Dec 3, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Scheduled Policy Optimization for Natural Language Communication with Intelligent Agents	Jun 16, 2018	Efficient Explorationreinforcement-learning	CodeCode Available
MASAI: Multi-agent Summative Assessment Improvement for Unsupervised Environment Design	Jun 13, 2021	Heuristic Searchreinforcement-learning	CodeCode Available
Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic Physiological Rewards	May 25, 2018	Navigatereinforcement-learning	CodeCode Available
Query-based Targeted Action-Space Adversarial Policies on Deep Reinforcement Learning Agents	Nov 13, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy	Dec 5, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Using Reward Machines for High-Level Task Specification and Decomposition in Reinforcement Learning	Jul 1, 2018	Hierarchical Reinforcement LearningQ-Learning	CodeCode Available
Mildly Constrained Evaluation Policy for Offline Reinforcement Learning	Jun 6, 2023	D4RLMuJoCo	CodeCode Available
Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees	Sep 28, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Quantum reinforcement learning	Oct 21, 2008	reinforcement-learningReinforcement Learning	CodeCode Available
Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer	Jun 22, 2022	Reinforcement Learning (RL)Transfer Learning	CodeCode Available
Neural Architecture Search with Reinforcement Learning	Nov 5, 2016	Image ClassificationLanguage Modeling	CodeCode Available
MOSEAC: Streamlined Variable Time Step Reinforcement Learning	Jun 3, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
SVRG for Policy Evaluation with Fewer Gradient Evaluations	Jun 9, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Optimistic Distributionally Robust Policy Optimization	Jun 14, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Model-free and Bayesian Ensembling Model-based Deep Reinforcement Learning for Particle Accelerator Control Demonstrated on the FERMI FEL	Dec 17, 2020	Deep Reinforcement Learningmodel	CodeCode Available
Quantum Deep Reinforcement Learning for Robot Navigation Tasks	Feb 24, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available
ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep Reinforcement Learning	Feb 15, 2021	Bayesian InferenceDeep Reinforcement Learning	CodeCode Available
Scrutinize What We Ignore: Reining In Task Representation Shift Of Context-Based Offline Meta Reinforcement Learning	May 20, 2024	Meta-LearningMeta Reinforcement Learning	CodeCode Available
Using State Predictions for Value Regularization in Curiosity Driven Deep Reinforcement Learning	Sep 30, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL	Dec 25, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available
Machine Teaching for Inverse Reinforcement Learning: Algorithms and Applications	May 20, 2018	Decision Makingreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 273 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified