Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3081–3090 of 15113 papers

Title	Date	Tasks	Status	Hype
Collaborative Wideband Spectrum Sensing and Scheduling for Networked UAVs in UTM Systems	Aug 9, 2023	ManagementMulti-class Classification	—Unverified	0
Actor-Critic with variable time discretization via sustained actions	Aug 8, 2023	Reinforcement Learning (RL)	—Unverified	0
Characterization of Human Balance through a Reinforcement Learning-based Muscle Controller	Aug 8, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
A Reinforcement Learning-Based Approach to Graph Discovery in D2D-Enabled Federated Learning	Aug 7, 2023	Federated LearningReinforcement Learning (RL)	—Unverified	0
Exploiting Generalization in Offline Reinforcement Learning via Unseen State Augmentations	Aug 7, 2023	Offline RLreinforcement-learning	—Unverified	0
QDax: A Library for Quality-Diversity and Population-based Algorithms with Hardware Acceleration	Aug 7, 2023	continuous-controlContinuous Control	—Unverified	0
Reinforcement Learning for Financial Index Tracking	Aug 5, 2023	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Nonprehensile Planar Manipulation through Reinforcement Learning with Multimodal Categorical Exploration	Aug 4, 2023	Objectreinforcement-learning	—Unverified	0
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation	Aug 4, 2023	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	1
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback	Aug 3, 2023	Bilevel OptimizationProcedure Learning	—Unverified	0

Show:10 25 50

← PrevPage 309 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified