Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4651–4675 of 15113 papers

Title	Date	Tasks	Status	Score
Reinforcement Learning for Solving the Vehicle Routing Problem	Feb 12, 2018	Combinatorial Optimizationreinforcement-learning	CodeCode Available	5
Multiagent Reinforcement Learning based Energy Beamforming Control	Jun 15, 2020	reinforcement-learningReinforcement Learning	CodeCode Available	5
Predictive World Models from Real-World Partial Observations	Jan 12, 2023	Continual LearningOpen-Ended Question Answering	CodeCode Available	5
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models	Apr 30, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified	0
Reinforced MOOCs Concept Recommendation in Heterogeneous Information Networks	Mar 8, 2022	Graph AttentionGraph Neural Network	—Unverified	0
Reinforced Multi-task Approach for Multi-hop Question Generation	Apr 5, 2020	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Reinforced Pedestrian Attribute Recognition with Group Optimization Reward	May 21, 2022	AttributeDecision Making	—Unverified	0
Reinforced Self-Training (ReST) for Language Modeling	Aug 17, 2023	Language ModelingLanguage Modelling	—Unverified	0
Reinforced Training Data Selection for Domain Adaptation	Jul 1, 2019	Dependency ParsingDomain Adaptation	—Unverified	0
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API	Oct 7, 2023	Decoderdocument understanding	—Unverified	0
Reinforced Video Captioning with Entailment Rewards	Aug 7, 2017	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforced Workload Distribution Fairness	Oct 29, 2021	FairnessReinforcement Learning (RL)	—Unverified	0
Reinforcement and Imitation Learning via Interactive No-Regret Learning	Jun 23, 2014	Imitation Learningreinforcement-learning	—Unverified	0
Reinforcement-based frugal learning for satellite image change detection	Mar 22, 2022	Active LearningChange Detection	—Unverified	0
Reinforcement Evolutionary Learning Method for self-learning	Oct 7, 2018	Incremental LearningMarketing	—Unverified	0
Reinforcement Explanation Learning	Nov 26, 2021	image-classificationImage Classification	—Unverified	0
Reinforcement Leaning for Infinite-Dimensional Systems	Sep 24, 2024	Reinforcement Learning (RL)	—Unverified	0
Reinforcement Learning in Feature Space: Matrix Bandit, Kernels, and Regret Bound	May 24, 2019	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning: a Comparison of UCB Versus Alternative Adaptive Policies	Sep 13, 2019	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning Agent Design and Optimization with Bandwidth Allocation Model	Nov 23, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning Agents for Ubisoft's Roller Champions	Dec 10, 2020	Cultural Vocal Bursts Intensity Predictionreinforcement-learning	—Unverified	0
Reinforcement Learning Agent Training with Goals for Real World Tasks	Jul 21, 2021	Decision Makingreinforcement-learning	—Unverified	0
Reinforcement Learning Algorithm for Traffic Steering in Heterogeneous Network	Nov 29, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Reinforcement Learning Algorithms: An Overview and Classification	Sep 29, 2022	Classificationreinforcement-learning	—Unverified	0
Reinforcement Learning Algorithm Selection	Jan 30, 2017	reinforcement-learningReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 187 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified