Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5751–5775 of 15113 papers

Title	Date	Tasks	Status
Lamarckian Platform: Pushing the Boundaries of Evolutionary Reinforcement Learning towards Asynchronous Commercial Games	Sep 21, 2022	CPUDistributed Computing	—Unverified
Lane Change Decision-making through Deep Reinforcement Learning with Rule-based Constraints	Mar 30, 2019	Autonomous DrivingDecision Making	—Unverified
Lane-Merging Using Policy-based Reinforcement Learning and Post-Optimization	Mar 6, 2020	reinforcement-learningReinforcement Learning	—Unverified
Langevin Dynamics for Adaptive Inverse Reinforcement Learning of Stochastic Gradient Algorithms	Jun 20, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game	Oct 29, 2023	Decision MakingReinforcement Learning (RL)	—Unverified
Language-based General Action Template for Reinforcement Learning Agents	Aug 1, 2021	reinforcement-learningReinforcement Learning	—Unverified
Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model	Jun 1, 2019	Action Detectionreinforcement-learning	—Unverified
Language Expansion In Text-Based Games	May 17, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Language Guided Exploration for RL Agents in Text Environments	Mar 5, 2024	Decision MakingLanguage Modeling	—Unverified
Language Inference with Multi-head Automata through Reinforcement Learning	Oct 20, 2020	Q-Learningreinforcement-learning	—Unverified
LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning	Apr 21, 2025	Language ModelingLanguage Modelling	—Unverified
LARES: Latent Reasoning for Sequential Recommendation	May 22, 2025	Recommendation SystemsReinforcement Learning (RL)	—Unverified
Large Language Model driven Policy Exploration for Recommender Systems	Jan 23, 2025	Language ModelingLanguage Modelling	—Unverified
Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies	Oct 14, 2024	In-Context LearningLanguage Modeling	—Unverified
Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning	Sep 4, 2024	Long-Context UnderstandingMulti-Objective Reinforcement Learning	—Unverified
Large Language Models (LLMs) Assisted Wireless Network Deployment in Urban Settings	May 22, 2024	NavigateReinforcement Learning (RL)	—Unverified
Large Language Models Prompting With Episodic Memory	Aug 14, 2024	Few-Shot LearningReinforcement Learning (RL)	—Unverified
Large scale continuous-time mean-variance portfolio allocation via reinforcement learning	Jul 26, 2019	reinforcement-learningReinforcement Learning	—Unverified
Large-scale Interactive Recommendation with Tree-structured Policy Gradient	Nov 14, 2018	ClusteringInteractive Recommendation	—Unverified
Large-scale Regional Traffic Signal Control Based on Single-Agent Reinforcement Learning	Mar 12, 2025	Reinforcement Learning (RL)Traffic Signal Control	—Unverified
Large-scale Reinforcement Learning for Diffusion Models	Jan 20, 2024	DiversityEthics	—Unverified
Large-Scale Retrieval for Reinforcement Learning	Jun 10, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Large-Scale Traffic Signal Control by a Nash Deep Q-network Approach	Jan 2, 2023	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Large-Scale Traffic Signal Control Using a Novel Multi-Agent Reinforcement Learning	Aug 10, 2019	Multi-agent Reinforcement LearningQ-Learning	—Unverified

Show:10 25 50

← PrevPage 231 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified