Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7651–7675 of 15113 papers

Title	Date	Tasks	Status
Global Convergence of the ODE Limit for Online Actor-Critic Algorithms in Reinforcement Learning	Aug 19, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods	Jul 13, 2024	Imitation LearningReinforcement Learning (RL)	—Unverified
Goal-conditioned Batch Reinforcement Learning for Rotation Invariant Locomotion	Apr 17, 2020	reinforcement-learningReinforcement Learning	—Unverified
Goal-Conditioned Data Augmentation for Offline Reinforcement Learning	Dec 29, 2024	D4RLData Augmentation	—Unverified
Goal-conditioned Imitation Learning	May 16, 2019	Imitation LearningReinforcement Learning (RL)	—Unverified
Goal-conditioned Offline Reinforcement Learning through State Space Partitioning	Mar 16, 2023	Inductive Biasreinforcement-learning	—Unverified
Goal-Conditioned Reinforcement Learning in the Presence of an Adversary	Nov 13, 2022	reinforcement-learningReinforcement Learning	—Unverified
Goal-Conditioned Reinforcement Learning with Imagined Subgoals	Jul 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Goal-directed Generation of Discrete Structures with Conditional Generative Models	Oct 5, 2020	Heuristic SearchProgram Synthesis	—Unverified
Goal-Directed Planning by Reinforcement Learning and Active Inference	Jun 18, 2021	Bayesian InferenceDecision Making	—Unverified
Goal-Directed Story Generation: Augmenting Generative Language Models with Reinforcement Learning	Dec 16, 2021	Deep Reinforcement LearningGraph Attention	—Unverified
Goal-Driven Sequential Data Abstraction	Jul 29, 2019	BenchmarkingGeneral Reinforcement Learning	—Unverified
Goal-oriented Dialogue Policy Learning from Failures	Aug 20, 2018	reinforcement-learningReinforcement Learning	—Unverified
Goal-Oriented Next Best Activity Recommendation using Reinforcement Learning	May 6, 2022	Activity Predictionreinforcement-learning	—Unverified
Goal-oriented Trajectories for Efficient Exploration	Jul 5, 2018	Efficient Explorationreinforcement-learning	—Unverified
Goal-Oriented Visual Question Generation via Intermediate Rewards	Sep 1, 2018	Deep Reinforcement LearningInformativeness	—Unverified
Goal-Space Planning with Subgoal Models	Jun 6, 2022	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
GOATS: Goal Sampling Adaptation for Scooping with Curriculum Reinforcement Learning	Mar 9, 2023	Positionreinforcement-learning	—Unverified
Go-Blend behavior and affect	Sep 24, 2021	reinforcement-learningReinforcement Learning	—Unverified
GoChat: Goal-oriented Chatbots with Hierarchical Reinforcement Learning	May 24, 2020	ChatbotHierarchical Reinforcement Learning	—Unverified
Going Beyond Linear RL: Sample Efficient Neural Function Approximation	Jul 14, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better	Mar 19, 2025	AttributeReinforcement Learning (RL)	—Unverified
Honey, I Shrunk The Actor: A Case Study on Preserving Performance with Smaller Actors in Actor-Critic RL	Feb 23, 2021	Reinforcement Learning (RL)	—Unverified
Good, Better, Best: Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning	Oct 21, 2019	Data AugmentationDecision Making	—Unverified
Government Intervention in Catastrophe Insurance Markets: A Reinforcement Learning Approach	Jul 3, 2022	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 307 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified