Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11751–11800 of 15113 papers

Title	Date	Tasks	Status
Reward Gaming in Conditional Text Generation	Nov 16, 2022	Conditional Text GenerationReinforcement Learning (RL)	—Unverified
Task Aware Dreamer for Task Generalization in Reinforcement Learning	Mar 9, 2023	reinforcement-learningReinforcement Learning	—Unverified
Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models	Mar 4, 2025	Reinforcement Learning (RL)	—Unverified
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning	Sep 19, 2022	Atari GamesBenchmarking	—Unverified
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning	Oct 10, 2024	Reinforcement Learning (RL)	—Unverified
Rewarding Semantic Similarity under Optimized Alignments for AMR-to-Text Generation	May 1, 2022	AMR-to-Text GenerationReinforcement Learning (RL)	—Unverified
Rewarding Smatch: Transition-Based AMR Parsing with Reinforcement Learning	May 31, 2019	AMR Parsingreinforcement-learning	—Unverified
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue	Jun 20, 2024	Dialogue State TrackingReinforcement Learning (RL)	—Unverified
Reward is enough for convex MDPs	Jun 1, 2021	Reinforcement Learning (RL)	—Unverified
Reward Is Enough: LLMs Are In-Context Reinforcement Learners	May 21, 2025	Large Language ModelReinforcement Learning (RL)	—Unverified
Reward is not enough: can we liberate AI from the reinforcement learning paradigm?	Feb 3, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery	Apr 10, 2024	Decision MakingImitation Learning	—Unverified
Reward Learning using Structural Motifs in Inverse Reinforcement Learning	Sep 25, 2022	reinforcement-learningReinforcement Learning	—Unverified
Rewardless Open-Ended Learning (ROEL)	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Reward Machine Inference for Robotic Manipulation	Dec 13, 2024	Reinforcement Learning (RL)	—Unverified
Reward (Mis)design for Autonomous Driving	Apr 28, 2021	Autonomous Drivingreinforcement-learning	—Unverified
Reward Poisoning Attacks on Offline Multi-Agent Reinforcement Learning	Jun 4, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Reward Poisoning in Reinforcement Learning: Attacks Against Unknown Learners in Unknown Environments	Feb 16, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward prediction for representation learning and reward shaping	May 7, 2021	PredictionReinforcement Learning (RL)	—Unverified
Reward-Predictive Clustering	Nov 7, 2022	Clusteringreinforcement-learning	—Unverified
STIR^2: Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks	Jan 11, 2022	Autonomous DrivingDecision Making	—Unverified
Reward-Respecting Subtasks for Model-Based Reinforcement Learning	Feb 7, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning	Nov 12, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reward Shaping for Reinforcement Learning with Omega-Regular Objectives	Jan 16, 2020	reinforcement-learningReinforcement Learning	—Unverified
Reward Shaping for User Satisfaction in a REINFORCE Recommender	Sep 30, 2022	ImputationReinforcement Learning (RL)	—Unverified
Reward Shaping via Diffusion Process in Reinforcement Learning	Jun 20, 2023	Navigatereinforcement-learning	—Unverified
Reward Shaping via Meta-Learning	Jan 27, 2019	Meta-LearningReinforcement Learning	—Unverified
Reward Shaping with Dynamic Trajectory Aggregation	Apr 13, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reward Shaping with Subgoals for Social Navigation	Apr 13, 2021	reinforcement-learningReinforcement Learning	—Unverified
RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation	Jun 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
Rewards with Negative Examples for Reinforced Topic-Focused Abstractive Summarization	Nov 1, 2021	Abstractive Text SummarizationDeep Reinforcement Learning	—Unverified
Reward Tampering Problems and Solutions in Reinforcement Learning: A Causal Influence Diagram Perspective	Aug 13, 2019	reinforcement-learningReinforcement Learning	—Unverified
Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning	Mar 19, 2025	Reinforcement Learning (RL)	—Unverified
REX: Rapid Exploration and eXploitation for AI Agents	Jul 18, 2023	AI AgentDecision Making	—Unverified
ReZero: Enhancing LLM search ability by trying one-more-time	Apr 15, 2025	Language ModelingLanguage Modelling	—Unverified
RIDM: Reinforced Inverse Dynamics Modeling for Learning from a Single Observed Demonstration	Jun 18, 2019	Imitation Learningreinforcement-learning	—Unverified
Riemannian Stochastic Gradient Method for Nested Composition Optimization	Jul 19, 2022	Meta-Learningreinforcement-learning	—Unverified
RILe: Reinforced Imitation Learning	Jun 12, 2024	Computational EfficiencyImitation Learning	—Unverified
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs	Jun 17, 2025	Data IntegrationLarge Language Model	—Unverified
RIS-assisted UAV Communications for IoT with Wireless Power Transfer Using Deep Reinforcement Learning	Aug 5, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
RISCLESS: A Reinforcement Learning Strategy to Exploit Unused Cloud Resources	Apr 28, 2022	reinforcement-learningReinforcement Learning	—Unverified
Risk-Averse Bayes-Adaptive Reinforcement Learning	Feb 10, 2021	Bayesian Optimisationreinforcement-learning	—Unverified
Risk-Averse Learning by Temporal Difference Methods	Mar 2, 2020	reinforcement-learningReinforcement Learning	—Unverified
Risk-averse policies for natural gas futures trading using distributional reinforcement learning	Jan 8, 2025	Distributional Reinforcement Learningenergy trading	—Unverified
Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk Measures	Jan 14, 2023	Q-Learningreinforcement-learning	—Unverified
Risk Averse Robust Adversarial Reinforcement Learning	Mar 31, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Risk Averse Value Expansion for Sample Efficient and Robust Policy Learning	Sep 25, 2019	Model-based Reinforcement LearningMuJoCo	—Unverified
Risk Aware and Multi-Objective Decision Making with Distributional Monte Carlo Tree Search	Feb 1, 2021	Decision MakingMulti-Objective Reinforcement Learning	—Unverified
Risk-Aware Reinforcement Learning through Optimal Transport Theory	Sep 12, 2023	Decision MakingManagement	—Unverified
Risk-Aware Safe Reinforcement Learning for Control of Stochastic Linear Systems	May 14, 2025	Reinforcement Learning (RL)Safe Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 236 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified