Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2326–2350 of 15113 papers

Title	Date	Tasks	Status	Score
Bayesian Curiosity for Efficient Exploration in Reinforcement Learning	Nov 20, 2019	Efficient Explorationreinforcement-learning	CodeCode Available	5
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available	5
Learning How to Active Learn by Dreaming	Jul 1, 2019	Active Learningnamed-entity-recognition	CodeCode Available	5
Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation	Feb 8, 2023	Hierarchical Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available	5
Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning	Oct 15, 2024	D4RLModel-based Reinforcement Learning	CodeCode Available	5
Learning Goal-Oriented Visual Dialog via Tempered Policy Gradient	Jul 2, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Learning Heuristics for Quantified Boolean Formulas through Deep Reinforcement Learning	Jul 20, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Learning Generalizable Representations for Reinforcement Learning via Adaptive Meta-learner of Behavioral Similarities	Dec 26, 2022	Data Augmentationreinforcement-learning	CodeCode Available	5
Batch Value-function Approximation with Only Realizability	Aug 11, 2020	Model SelectionReinforcement Learning (RL)	CodeCode Available	5
Learning Generalizable Device Placement Algorithms for Distributed Machine Learning	Dec 1, 2019	BIG-bench Machine LearningReinforcement Learning	CodeCode Available	5
Learning Goal Embeddings via Self-Play for Hierarchical Reinforcement Learning	Nov 22, 2018	Hierarchical Reinforcement LearningMuJoCo	CodeCode Available	5
Learning Heuristics over Large Graphs via Deep Reinforcement Learning	Mar 8, 2019	Combinatorial OptimizationDeep Reinforcement Learning	CodeCode Available	5
Learning to Compose Neural Networks for Question Answering	Jan 7, 2016	Question Answeringreinforcement-learning	CodeCode Available	5
Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning	Oct 11, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning from Demonstration without Demonstrations	Jun 17, 2021	Reinforcement Learning (RL)	CodeCode Available	5
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards	Aug 18, 2020	Deep Reinforcement LearningFairness	CodeCode Available	5
Combining imitation and deep reinforcement learning to accomplish human-level performance on a virtual foraging task	Mar 11, 2022	Deep Reinforcement LearningImitation Learning	CodeCode Available	5
Learning-Driven Exploration for Reinforcement Learning	Jun 17, 2019	Efficient ExplorationFPS Games	CodeCode Available	5
Learning Dynamic Context Augmentation for Global Entity Linking	Sep 4, 2019	Entity DisambiguationEntity Linking	CodeCode Available	5
Learning data augmentation policies using augmented random search	Nov 12, 2018	Data Augmentationreinforcement-learning	CodeCode Available	5
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game	Apr 8, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models	Feb 8, 2025	Conformal PredictionDecision Making	CodeCode Available	5
Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition	Feb 9, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Learning Explicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning via Polarization Policy Gradient	Oct 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
An Actor-Critic Algorithm for Sequence Prediction	Jul 24, 2016	Caption GenerationMachine Translation	CodeCode Available	5

Show:10 25 50

← PrevPage 94 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified