Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9726–9750 of 15113 papers

Title	Date	Tasks	Status
Model-Based Imitation Learning Using Entropy Regularization of Model and Policy	Jun 21, 2022	counterfactualImitation Learning	—Unverified
Model-Based Inverse Reinforcement Learning from Visual Demonstrations	Oct 18, 2020	modelModel Predictive Control	—Unverified
Model-based Lookahead Reinforcement Learning	Aug 15, 2019	continuous-controlContinuous Control	—Unverified
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models	Feb 16, 2021	Decision MakingMeta Reinforcement Learning	—Unverified
Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Sweeping	Jan 15, 2020	Model-based Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Model based Multi-agent Reinforcement Learning with Tensor Decompositions	Oct 27, 2021	Model-based Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Model-based Multi-agent Reinforcement Learning: Recent Progress and Prospects	Mar 20, 2022	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity	Jul 15, 2020	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
Model-Based Offline Meta-Reinforcement Learning with Regularization	Feb 7, 2022	Meta Reinforcement Learningreinforcement-learning	—Unverified
Model-Based Offline Planning	Aug 12, 2020	modelOffline RL	—Unverified
Model-based Offline Reinforcement Learning with Local Misspecification	Jan 26, 2023	D4RLmodel	—Unverified
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation	Mar 26, 2025	D4RLData Augmentation	—Unverified
Model Based Planning with Energy Based Models	Sep 15, 2019	modelReinforcement Learning	—Unverified
Model-Based Policy Gradients with Parameter-Based Exploration by Least-Squares Conditional Density Estimation	Jul 19, 2013	Density EstimationReinforcement Learning	—Unverified
Model-based Policy Search for Partially Measurable Systems	Jan 21, 2021	Gaussian Processesmodel	—Unverified
Model-Based Regularization for Deep Reinforcement Learning with Transcoder Networks	Sep 6, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Model-based Reinforcement Learning and the Eluder Dimension	Jun 7, 2014	modelModel-based Reinforcement Learning	—Unverified
Model-based Reinforcement Learning: A Survey	Jun 30, 2020	Decision Makingmodel	—Unverified
Model-Based Reinforcement Learning Exploiting State-Action Equivalence	Oct 9, 2019	modelModel-based Reinforcement Learning	—Unverified
Model-based reinforcement learning for biological sequence design	May 1, 2020	modelModel-based Reinforcement Learning	—Unverified
Model-based Reinforcement Learning for Predictions and Control for Limit Order Books	Oct 9, 2019	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Model-Based Reinforcement Learning for Physical Systems Without Velocity and Acceleration Measurements	Feb 25, 2020	GPRModel-based Reinforcement Learning	—Unverified
Model-Based Reinforcement Learning for Approximate Optimal Control with Temporal Logic Specifications	Jan 18, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Model-based Reinforcement Learning for Service Mesh Fault Resiliency in a Web Application-level	Oct 21, 2021	AttributeManagement	—Unverified
Model-Based Reinforcement Learning via Stochastic Hybrid Models	Nov 11, 2021	Imitation Learningmodel	—Unverified

Show:10 25 50

← PrevPage 390 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified