Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 881–890 of 15113 papers

Title	Date	Tasks	Status	Hype
ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format	Nov 30, 2022	Reinforcement Learning (RL)Transfer Learning	CodeCode Available	1
The Effectiveness of World Models for Continual Reinforcement Learning	Nov 29, 2022	Continual LearningModel-based Reinforcement Learning	CodeCode Available	1
Improved Representation of Asymmetrical Distances with Interval Quasimetric Embeddings	Nov 28, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Quantile Constrained Reinforcement Learning: A Reinforcement Learning Framework Constraining Outage Probability	Nov 28, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
BEAR: Physics-Principled Building Environment for Control and Reinforcement Learning	Nov 27, 2022	energy managementManagement	CodeCode Available	1
Masked Autoencoding for Scalable and Generalizable Decision Making	Nov 23, 2022	Decision MakingOffline RL	CodeCode Available	1
TEMPERA: Test-Time Prompting via Reinforcement Learning	Nov 21, 2022	Few-Shot LearningNatural Language Inference	CodeCode Available	1
Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation	Nov 20, 2022	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	1
Deep Reinforcement Learning Guided Improvement Heuristic for Job Shop Scheduling	Nov 20, 2022	Deep Reinforcement LearningGraph Neural Network	CodeCode Available	1
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows	Nov 20, 2022	Offline RLreinforcement-learning	CodeCode Available	1

Show:10 25 50

← PrevPage 89 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified