Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5326–5350 of 15113 papers

Title	Date	Tasks	Status
Rewardless Open-Ended Learning (ROEL)	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Reward Machine Inference for Robotic Manipulation	Dec 13, 2024	Reinforcement Learning (RL)	—Unverified
Reward (Mis)design for Autonomous Driving	Apr 28, 2021	Autonomous Drivingreinforcement-learning	—Unverified
Reward Poisoning Attacks on Offline Multi-Agent Reinforcement Learning	Jun 4, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Reward Poisoning in Reinforcement Learning: Attacks Against Unknown Learners in Unknown Environments	Feb 16, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward prediction for representation learning and reward shaping	May 7, 2021	PredictionReinforcement Learning (RL)	—Unverified
Reward-Predictive Clustering	Nov 7, 2022	Clusteringreinforcement-learning	—Unverified
STIR^2: Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks	Jan 11, 2022	Autonomous DrivingDecision Making	—Unverified
Reward-Respecting Subtasks for Model-Based Reinforcement Learning	Feb 7, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning	Nov 12, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reward Shaping for Reinforcement Learning with Omega-Regular Objectives	Jan 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reward Shaping for User Satisfaction in a REINFORCE Recommender	Sep 30, 2022	ImputationReinforcement Learning (RL)	—Unverified
Reward Shaping via Diffusion Process in Reinforcement Learning	Jun 20, 2023	Navigatereinforcement-learning	—Unverified
Reward Shaping via Meta-Learning	Jan 27, 2019	Meta-LearningReinforcement Learning	—Unverified
Reward Shaping with Dynamic Trajectory Aggregation	Apr 13, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward Shaping with Subgoals for Social Navigation	Apr 13, 2021	reinforcement-learningReinforcement Learning	—Unverified
RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation	Jun 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
Rewards with Negative Examples for Reinforced Topic-Focused Abstractive Summarization	Nov 1, 2021	Abstractive Text SummarizationDeep Reinforcement Learning	—Unverified
Reward Tampering Problems and Solutions in Reinforcement Learning: A Causal Influence Diagram Perspective	Aug 13, 2019	reinforcement-learningReinforcement Learning	—Unverified
Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning	Mar 19, 2025	Reinforcement Learning (RL)	—Unverified
REX: Rapid Exploration and eXploitation for AI Agents	Jul 18, 2023	AI AgentDecision Making	—Unverified
ReZero: Enhancing LLM search ability by trying one-more-time	Apr 15, 2025	Language ModelingLanguage Modelling	—Unverified
RIDM: Reinforced Inverse Dynamics Modeling for Learning from a Single Observed Demonstration	Jun 18, 2019	Imitation Learningreinforcement-learning	—Unverified
Riemannian Stochastic Gradient Method for Nested Composition Optimization	Jul 19, 2022	Meta-Learningreinforcement-learning	—Unverified
RILe: Reinforced Imitation Learning	Jun 12, 2024	Computational EfficiencyImitation Learning	—Unverified

Show:10 25 50

← PrevPage 214 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified