Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8276–8300 of 15113 papers

Title	Date	Tasks	Status
Resmax: An Alternative Soft-Greedy Operator for Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Plan Your Target and Learn Your Skills: State-Only Imitation Learning via Decoupled Policy Optimization	Sep 29, 2021	Imitation LearningReinforcement Learning (RL)	—Unverified
Self-Supervised Structured Representations for Deep Reinforcement Learning	Sep 29, 2021	Atari GamesDeep Reinforcement Learning	—Unverified
Multi-Agent Reinforcement Learning with Shared Resource in Inventory Management	Sep 29, 2021	ManagementMulti-agent Reinforcement Learning	—Unverified
Theoretical understanding of adversarial reinforcement learning via mean-field optimal control	Sep 29, 2021	Generalization Boundsreinforcement-learning	—Unverified
Multi-batch Reinforcement Learning via Sample Transfer and Imitation Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
The Remarkable Effectiveness of Combining Policy and Value Networks in A*-based Deep RL for AI Planning	Sep 29, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Offline-Online Reinforcement Learning: Extending Batch and Online RL	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
P4O: Efficient Deep Reinforcement Learning with Predictive Processing Proximal Policy Optimization	Sep 29, 2021	Atari GamesDeep Reinforcement Learning	—Unverified
Rethinking Pareto Approaches in Constrained Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Offline Pre-trained Multi-Agent Decision Transformer	Sep 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Should I Run Offline Reinforcement Learning or Behavioral Cloning?	Sep 29, 2021	Atari GamesDiagnostic	—Unverified
Selective Token Generation for Few-shot Language Modeling	Sep 29, 2021	Data-to-Text GenerationLanguage Modeling	—Unverified
Offline Reinforcement Learning for Large Scale Language Action Spaces	Sep 29, 2021	Language ModelingLanguage Modelling	—Unverified
Task-driven Discovery of Perceptual Schemas for Generalization in Reinforcement Learning	Sep 29, 2021	Deep Reinforcement LearningObject	—Unverified
Targeted Environment Design from Offline Data	Sep 29, 2021	Offline RLReinforcement Learning (RL)	—Unverified
Revisiting the Monotonicity Constraint in Cooperative Multi-Agent Reinforcement Learning	Sep 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Offline Reinforcement Learning with Resource Constrained Online Deployment	Sep 29, 2021	D4RLOffline RL	—Unverified
Towards Understanding Distributional Reinforcement Learning: Regularization, Optimization, Acceleration and Sinkhorn Algorithm	Sep 29, 2021	Atari GamesDistributional Reinforcement Learning	—Unverified
Towards Unknown-aware Deep Q-Learning	Sep 29, 2021	Deep Reinforcement LearningOut of Distribution (OOD) Detection	—Unverified
Model-based Reinforcement Learning with Ensembled Model-value Expansion	Sep 29, 2021	modelModel-based Reinforcement Learning	—Unverified
Rewardless Open-Ended Learning (ROEL)	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Transformers are Meta-Reinforcement Learners	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Triangular Dropout: Variable Network Width without Retraining	Sep 29, 2021	Lifelong learningReinforcement Learning (RL)	—Unverified
MOBA: Multi-teacher Model Based Reinforcement Learning	Sep 29, 2021	Decision MakingKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 332 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified