Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7076–7100 of 15113 papers

Title	Date	Tasks	Status
Evaluating the Safety of Deep Reinforcement Learning Models using Semi-Formal Verification	Oct 19, 2020	Decision MakingDeep Reinforcement Learning	—Unverified
Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels	Apr 11, 2022	Contrastive LearningDeep Reinforcement Learning	—Unverified
Evaluation of Active Feature Acquisition Methods for Static Feature Settings	Dec 6, 2023	Offline RLreinforcement-learning	—Unverified
Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi	Jul 15, 2021	BenchmarkingDeep Reinforcement Learning	—Unverified
Evaluation of Look-ahead Economic Dispatch Using Reinforcement Learning	Sep 21, 2022	reinforcement-learningReinforcement Learning	—Unverified
Evaluation of Online Dialogue Policy Learning Techniques	May 1, 2012	Dialogue ManagementManagement	—Unverified
Evaluation-Time Policy Switching for Offline Reinforcement Learning	Mar 15, 2025	Behavioural cloningOffline RL	—Unverified
Event Discovery for History Representation in Reinforcement Learning	Sep 25, 2019	reinforcement-learningReinforcement Learning	—Unverified
Event-Driven Models	Jun 24, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Event Extraction with Generative Adversarial Imitation Learning	Apr 21, 2018	Event ExtractionFeature Engineering	—Unverified
Event Identification as a Decision Process with Non-linear Representation of Text	Oct 3, 2017	reinforcement-learningReinforcement Learning	—Unverified
Event Tables for Efficient Experience Replay	Nov 1, 2022	Car RacingDeep Reinforcement Learning	—Unverified
Evolution and The Knightian Blindspot of Machine Learning	Jan 22, 2025	Reinforcement Learning (RL)	—Unverified
Evolutionarily-Curated Curriculum Learning for Deep Reinforcement Learning Agents	Jan 16, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Evolutionary algorithms for constructing an ensemble of decision trees	Feb 3, 2020	Evolutionary Algorithmsreinforcement-learning	—Unverified
Evolutionary Deep Reinforcement Learning Using Elite Buffer: A Novel Approach Towards DRL Combined with EA in Continuous Control Tasks	Sep 18, 2022	continuous-controlContinuous Control	—Unverified
Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN	Aug 30, 2022	Deep Reinforcement LearningManagement	—Unverified
Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning	Sep 29, 2021	Clusteringcontinuous-control	—Unverified
Evolutionary Multi-Objective Reinforcement Learning Based Trajectory Control and Task Offloading in UAV-Assisted Mobile Edge Computing	Feb 24, 2022	Edge-computingMulti-Objective Reinforcement Learning	—Unverified
Evolutionary Policy Optimization	Mar 24, 2025	DiversityEvolutionary Algorithms	—Unverified
Evolutionary Policy Optimization	Apr 17, 2025	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Evolutionary Quantum Architecture Search for Parametrized Quantum Circuits	Aug 23, 2022	Reinforcement Learning (RL)	—Unverified
Evolutionary Reinforcement Learning: A Survey	Mar 7, 2023	Board GamesHyperparameter Optimization	—Unverified
Evolutionary Reinforcement Learning for Sample-Efficient Multiagent Coordination	Jun 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Evolutionary Reinforcement Learning for Interpretable Decision-Making in Supply Chain Management	Apr 16, 2025	Decision MakingManagement	—Unverified

Show:10 25 50

← PrevPage 284 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified