Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11226–11250 of 15113 papers

Title	Date	Tasks	Status
Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds	Mar 12, 2025	Deep Reinforcement LearningKnowledge Distillation	—Unverified
Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games	Aug 19, 2022	MuJoCoReinforcement Learning (RL)	—Unverified
Unified Reinforcement Q-Learning for Mean Field Game and Control Problems	Jun 24, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation	Jun 22, 2021	reinforcement-learningReinforcement Learning	—Unverified
Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension	May 15, 2023	Open-Ended Question AnsweringReinforcement Learning (RL)	—Unverified
Uniform State Abstraction For Reinforcement Learning	Apr 6, 2020	continuous-controlContinuous Control	—Unverified
Unifying Causal Inference and Reinforcement Learning using Higher-Order Category Theory	Sep 13, 2022	Causal Inferencereinforcement-learning	—Unverified
Unifying Ensemble Methods for Q-learning via Social Choice Theory	Feb 27, 2019	DiversityQ-Learning	—Unverified
Unifying task specification in reinforcement learning	Sep 7, 2016	reinforcement-learningReinforcement Learning	—Unverified
Unifying Value Iteration, Advantage Learning, and Dynamic Policy Programming	Oct 30, 2017	reinforcement-learningReinforcement Learning	—Unverified
Universal Activation Function For Machine Learning	Nov 7, 2020	BIG-bench Machine LearningGeneral Classification	—Unverified
Universal Agent for Disentangling Environments and Tasks	Jan 1, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Universal Agent Mixtures and the Geometry of Intelligence	Feb 13, 2023	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
Universal Distributional Decision-based Black-box Adversarial Attack with Reinforcement Learning	Nov 15, 2022	Adversarial Attackreinforcement-learning	—Unverified
Universal Learning Waveform Selection Strategies for Adaptive Target Tracking	Feb 10, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Universal Successor Features Based Deep Reinforcement Learning for Navigation	Jun 17, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Universal Successor Features for Transfer Reinforcement Learning	Jan 5, 2020	MuJoCoreinforcement-learning	—Unverified
Universal Successor Representations for Transfer Reinforcement Learning	Apr 11, 2018	reinforcement-learningReinforcement Learning	—Unverified
Universal Trading for Order Execution with Oracle Policy Distillation	Jan 28, 2021	Algorithmic Tradingreinforcement-learning	—Unverified
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
UniZero: Generalized and Efficient Planning with Scalable Latent World Models	Jun 15, 2024	Multi-Task LearningReinforcement Learning (RL)	—Unverified
Unlearning Works Better Than You Think: Local Reinforcement-Based Selection of Auxiliary Objectives	Apr 19, 2025	Reinforcement Learning (RL)	—Unverified
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem	Jun 3, 2025	GPUMath	—Unverified
Unlocking Pixels for Reinforcement Learning via Implicit Attention	Feb 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
Unlocking the Potential of Simulators: Design with RL in Mind	Jun 8, 2017	Decision MakingFriction	—Unverified

Show:10 25 50

← PrevPage 450 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified