Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2351–2375 of 15113 papers

Title	Date	Tasks	Status	Score
Learning from Trajectories via Subgoal Discovery	Nov 3, 2019	Imitation LearningReinforcement Learning	CodeCode Available	5
Learning from Multiple Independent Advisors in Multi-agent Reinforcement Learning	Jan 26, 2023	Multi-agent Reinforcement LearningQ-Learning	CodeCode Available	5
Learning from Sparse Offline Datasets via Conservative Density Estimation	Jan 16, 2024	D4RLDensity Estimation	CodeCode Available	5
Learning Generalizable Device Placement Algorithms for Distributed Machine Learning	Dec 1, 2019	BIG-bench Machine LearningReinforcement Learning	CodeCode Available	5
Learning Local Search Heuristics for Boolean Satisfiability	Dec 1, 2019	Deep Reinforcement LearningGraph Neural Network	CodeCode Available	5
Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning	Oct 11, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning from Demonstration without Demonstrations	Jun 17, 2021	Reinforcement Learning (RL)	CodeCode Available	5
Learning Dynamic Context Augmentation for Global Entity Linking	Sep 4, 2019	Entity DisambiguationEntity Linking	CodeCode Available	5
Learning-Driven Exploration for Reinforcement Learning	Jun 17, 2019	Efficient ExplorationFPS Games	CodeCode Available	5
BaRC: Backward Reachability Curriculum for Robotic Reinforcement Learning	Jun 16, 2018	continuous-controlContinuous Control	CodeCode Available	5
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards	Aug 18, 2020	Deep Reinforcement LearningFairness	CodeCode Available	5
Combining imitation and deep reinforcement learning to accomplish human-level performance on a virtual foraging task	Mar 11, 2022	Deep Reinforcement LearningImitation Learning	CodeCode Available	5
Learning Explicit Credit Assignment for Cooperative Multi-Agent Reinforcement Learning via Polarization Policy Gradient	Oct 10, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
A Multilevel Reinforcement Learning Framework for PDE-based Control	Oct 15, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning Curriculum Policies for Reinforcement Learning	Dec 1, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models	Feb 8, 2025	Conformal PredictionDecision Making	CodeCode Available	5
Balancing Value Underestimation and Overestimation with Realistic Actor-Critic	Oct 19, 2021	continuous-controlContinuous Control	CodeCode Available	5
Learning data augmentation policies using augmented random search	Nov 12, 2018	Data Augmentationreinforcement-learning	CodeCode Available	5
A Multi-Document Coverage Reward for RELAXed Multi-Document Summarization	Mar 6, 2022	Computational EfficiencyDocument Summarization	CodeCode Available	5
Balancing the Scales: Reinforcement Learning for Fair Classification	Jul 15, 2024	ClassificationFairness	CodeCode Available	5
Learning by Playing - Solving Sparse Reward Tasks from Scratch	Feb 28, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition	Feb 9, 2023	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	5
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game	Apr 8, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Learning-based Model Predictive Control for Safe Exploration and Reinforcement Learning	Jun 27, 2019	Model Predictive Controlreinforcement-learning	CodeCode Available	5
Balancing detectability and performance of attacks on the control channel of Markov Decision Processes	Sep 15, 2021	Reinforcement Learning (RL)	CodeCode Available	5

Show:10 25 50

← PrevPage 95 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified