Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7301–7325 of 15113 papers

Title	Date	Tasks	Status
Where Off-Policy Deep Reinforcement Learning Fails	Sep 27, 2018	continuous-controlContinuous Control	—Unverified
Where the Action is: Let's make Reinforcement Learning for Stochastic Dynamic Vehicle Routing Problems work!	Feb 28, 2021	Reinforcement Learning (RL)	—Unverified
Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians	Feb 25, 2021	Collision AvoidanceDeep Reinforcement Learning	—Unverified
Where to Look: A Unified Attention Model for Visual Recognition with Reinforcement Learning	Nov 13, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Which Channel to Ask My Question? Personalized Customer Service RequestStream Routing using DeepReinforcement Learning	Nov 24, 2019	ChatbotDeep Reinforcement Learning	—Unverified
Which Mutual-Information Representation Learning Objectives are Sufficient for Control?	Jun 14, 2021	Reinforcement Learning (RL)Representation Learning	—Unverified
Whittle index based Q-learning for restless bandits with average reward	Apr 29, 2020	Q-Learningreinforcement-learning	—Unverified
Who Are the Best Adopters? User Selection Model for Free Trial Item Promotion	Feb 19, 2022	Marketingreinforcement-learning	—Unverified
Whole-body End-Effector Pose Tracking	Sep 24, 2024	Pose TrackingReinforcement Learning (RL)	—Unverified
Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?	Sep 23, 2019	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability	Jul 13, 2021	Reinforcement Learning (RL)	—Unverified
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative	Jul 13, 2023	Reinforcement Learning (RL)	—Unverified
Why is Posterior Sampling Better than Optimism for Reinforcement Learning?	Jul 1, 2016	reinforcement-learningReinforcement Learning	—Unverified
Why Online Reinforcement Learning is Causal	Mar 7, 2024	counterfactualOffline RL	—Unverified
Why Pay More When You Can Pay Less: A Joint Learning Framework for Active Feature Acquisition and Classification	Sep 18, 2017	General ClassificationReinforcement Learning	—Unverified
Why so pessimistic? Estimating uncertainties for offline RL through ensembles, and why their independence matters.	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters	May 27, 2022	D4RLOffline RL	—Unverified
Widely Used and Fast De Novo Drug Design by a Protein Sequence-Based Reinforcement Learning Model	Aug 14, 2022	Drug DesignDrug Discovery	—Unverified
Wield: Systematic Reinforcement Learning With Progressive Randomization	Sep 15, 2019	General Classificationreinforcement-learning	—Unverified
Will it Blend? Composing Value Functions in Reinforcement Learning	Jul 12, 2018	Lifelong learningreinforcement-learning	—Unverified
Wind Power Forecasting Considering Data Privacy Protection: A Federated Deep Reinforcement Learning Approach	Nov 2, 2022	Deep Reinforcement LearningFederated Learning	—Unverified
Winning at Any Cost -- Infringing the Cartel Prohibition With Reinforcement Learning	Jul 5, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance	Dec 4, 2022	Decision MakingReinforcement Learning (RL)	—Unverified
Winning the L2RPN Challenge: Power Grid Management via Semi-Markov Afterstate Actor-Critic	Jan 1, 2021	ManagementReinforcement Learning (RL)	—Unverified
Wireless 2.0: Towards an Intelligent Radio Environment Empowered by Reconfigurable Meta-Surfaces and Artificial Intelligence	Feb 23, 2020	Managementreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 293 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified