Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14351–14400 of 15113 papers

Title	Date	Tasks	Status
A Tree Search Algorithm for Sequence Labeling	Apr 29, 2018	ChunkingDecision Making	CodeCode Available
Free-Lunch Saliency via Attention in Atari Agents	Aug 7, 2019	Decision MakingDeep Reinforcement Learning	CodeCode Available
Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning	Nov 19, 2015	Atari GamesDeep Reinforcement Learning	CodeCode Available
Learning Visual Servoing with Deep Features and Fitted Q-Iteration	Mar 31, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Frequentist Regret Bounds for Randomized Least-Squares Value Iteration	Nov 1, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Meta-learning Convolutional Neural Architectures for Multi-target Concrete Defect Classification with the COncrete DEfect BRidge IMage Dataset	Apr 2, 2019	General ClassificationMeta-Learning	CodeCode Available
Adaptive teachers for amortized samplers	Oct 2, 2024	Decision MakingEfficient Exploration	CodeCode Available
Hyp-RL : Hyperparameter Optimization by Reinforcement Learning	Jun 27, 2019	Bayesian OptimizationHyperparameter Optimization	CodeCode Available
DynamicLight: Two-Stage Dynamic Traffic Signal Timing	Nov 2, 2022	Q-LearningReinforcement Learning (RL)	CodeCode Available
From Credit Assignment to Entropy Regularization: Two New Algorithms for Neural Sequence Prediction	Apr 29, 2018	Predictionreinforcement-learning	CodeCode Available
Hysteresis-Based RL: Robustifying Reinforcement Learning-based Control Policies via Hybrid Control	Apr 1, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Convergent and Efficient Deep Q Network Algorithm	Jun 29, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Dynamic Measurement Scheduling for Event Forecasting using Deep RL	Jan 24, 2019	Deep Reinforcement LearningICU Mortality	CodeCode Available
ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity?	Aug 28, 2017	DiversityDrug Discovery	CodeCode Available
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs	Feb 14, 2023	Reinforcement Learning (RL)	CodeCode Available
From Gameplay to Symbolic Reasoning: Learning SAT Solver Heuristics in the Style of Alpha(Go) Zero	Feb 14, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Dynamic Network Reconfiguration for Entropy Maximization using Deep Reinforcement Learning	May 26, 2022	Deep Reinforcement LearningNavigate	CodeCode Available
DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design	Feb 5, 2024	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
A Tour of Reinforcement Learning: The View from Continuous Control	Jun 25, 2018	continuous-controlContinuous Control	CodeCode Available
Identifiability and generalizability from multiple experts in Inverse Reinforcement Learning	Sep 22, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning	Jul 5, 2023	OpenAI Gymreinforcement-learning	CodeCode Available
From Images to Connections: Can DQN with GNNs learn the Strategic Game of Hex?	Nov 22, 2023	Board GamesInductive Bias	CodeCode Available
Identifiability and Generalizability in Constrained Inverse Reinforcement Learning	Jun 1, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives	Aug 7, 2024	Model Selectionreinforcement-learning	CodeCode Available
A Threshold-based Scheme for Reinforcement Learning in Neural Networks	Sep 12, 2016	reinforcement-learningReinforcement Learning	CodeCode Available
From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood	Apr 25, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Active Policy Improvement from Multiple Black-box Oracles	Jun 17, 2023	Imitation LearningReinforcement Learning (RL)	CodeCode Available
An Investigation of Offline Reinforcement Learning in Factorisable Action Spaces	Nov 17, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Learning to Navigate in Cities Without a Map	Mar 31, 2018	Autonomous NavigationDeep Reinforcement Learning	CodeCode Available
From Perceptions to Decisions: Wildfire Evacuation Decision Prediction with Behavioral Theory-informed LLMs	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available
Deep Exploration via Bootstrapped DQN	Feb 15, 2016	Atari GamesEfficient Exploration	CodeCode Available
Identifying optimal cycles in quantum thermal machines with reinforcement-learning	Aug 30, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
An investigation of model-free planning	Jan 11, 2019	Inductive Biasmodel	CodeCode Available
Characterizing Attacks on Deep Reinforcement Learning	Jul 21, 2019	Atari GamesAutonomous Driving	CodeCode Available
Deep PQR: Solving Inverse Reinforcement Learning using Anchor Actions	Jul 15, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Challenging common bolus advisor for self-monitoring type-I diabetes patients using Reinforcement Learning	Jul 23, 2020	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Classifying Ambiguous Identities in Hidden-Role Stochastic Games with Multi-Agent Reinforcement Learning	Oct 24, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
IGLU 2022: Interactive Grounded Language Understanding in a Collaborative Environment at NeurIPS 2022	May 27, 2022	Natural Language UnderstandingReinforcement Learning (RL)	CodeCode Available
A Temporal Difference Method for Stochastic Continuous Dynamics	May 21, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
IGN : Implicit Generative Networks	Jun 13, 2022	Atari GamesDistributional Reinforcement Learning	CodeCode Available
Hierarchical Potential-based Reward Shaping from Task Specifications	Oct 6, 2021	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available
Dynamics-aware Embeddings	Aug 25, 2019	continuous-controlContinuous Control	CodeCode Available
Learning to Navigate in Complex Environments	Nov 11, 2016	Depth EstimationDepth Prediction	CodeCode Available
A Systematization of the Wagner Framework: Graph Theory Conjectures and Reinforcement Learning	Jun 18, 2024	Reinforcement Learning (RL)Systematic Generalization	CodeCode Available
Bayesian Reinforcement Learning via Deep, Sparse Sampling	Feb 7, 2019	Efficient Explorationreinforcement-learning	CodeCode Available
From Two-Dimensional to Three-Dimensional Environment with Q-Learning: Modeling Autonomous Navigation with Reinforcement Learning and no Libraries	Mar 27, 2024	Autonomous NavigationDecision Making	CodeCode Available
IKEA Furniture Assembly Environment for Long-Horizon Complex Manipulation Tasks	Nov 17, 2019	Industrial Robotsreinforcement-learning	CodeCode Available
Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting	Mar 17, 2023	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available
Learning and Policy Search in Stochastic Dynamical Systems with Bayesian Neural Networks	May 23, 2016	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 288 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified