Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6251–6275 of 15113 papers

Title	Date	Tasks	Status
Limited Query Graph Connectivity Test	Feb 25, 2023	Reinforcement Learning (RL)	—Unverified
Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in IBMDPs	Sep 23, 2023	Reinforcement Learning (RL)	—Unverified
Lineage Evolution Reinforcement Learning	Sep 26, 2020	reinforcement-learningReinforcement Learning	—Unverified
Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions	Jun 17, 2024	regressionReinforcement Learning (RL)	—Unverified
Linear Complementarity for Regularized Policy Evaluation and Improvement	Dec 1, 2010	feature selectionReinforcement Learning	—Unverified
Linear convergence of a policy gradient method for some finite horizon continuous time control problems	Mar 22, 2022	Policy Gradient Methodsreinforcement-learning	—Unverified
Linear Feature Encoding for Reinforcement Learning	Dec 1, 2016	Deep Reinforcement Learningreinforcement-learning	—Unverified
Linear interpolation gives better gradients than Gaussian smoothing in derivative-free optimization	May 29, 2019	reinforcement-learningReinforcement Learning	—Unverified
Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods	Oct 9, 2019	Policy Gradient Methodsreinforcement-learning	—Unverified
Logarithmic regret for episodic continuous-time linear-quadratic reinforcement learning over a finite-time horizon	Jun 27, 2020	parameter estimationReinforcement Learning (RL)	—Unverified
Linear Reinforcement Learning with Ball Structure Action Space	Nov 14, 2022	reinforcement-learningReinforcement Learning	—Unverified
Linear Representation Meta-Reinforcement Learning for Instant Adaptation	Jan 12, 2021	continuous-controlContinuous Control	—Unverified
Linear Stochastic Approximation: Constant Step-Size and Iterate Averaging	Sep 12, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
LISPR: An Options Framework for Policy Reuse with Reinforcement Learning	Dec 29, 2020	Continual Learningreinforcement-learning	—Unverified
Listener-Rewarded Thinking in VLMs for Image Preferences	Jun 28, 2025	MemorizationReinforcement Learning (RL)	—Unverified
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Trainin	May 29, 2025	GPUReinforcement Learning (RL)	—Unverified
LLM Alignment as Retriever Optimization: An Information Retrieval Perspective	Feb 6, 2025	Information RetrievalMisinformation	—Unverified
LLM Augmented Hierarchical Agents	Nov 9, 2023	In-Context LearningReinforcement Learning (RL)	—Unverified
LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition	Oct 2, 2024	Common Sense ReasoningInductive logic programming	—Unverified
LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions	May 17, 2024	Multi-agent Reinforcement LearningQuestion Answering	—Unverified
LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble	Nov 26, 2024	Offline RLReinforcement Learning (RL)	—Unverified
LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models	May 21, 2025	MuJoCoReinforcement Learning (RL)	—Unverified
LLM-hRIC: LLM-empowered Hierarchical RAN Intelligent Control for O-RAN	Apr 25, 2025	ManagementReinforcement Learning (RL)	—Unverified
LLMs for Engineering: Teaching Models to Design High Powered Rockets	Apr 27, 2025	Reinforcement Learning (RL)	—Unverified
LLMs Meet Finance: Fine-Tuning Foundation Models for the Open FinLLM Leaderboard	Apr 17, 2025	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 251 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified