Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8451–8475 of 15113 papers

Title	Date	Tasks	Status
Optimizing a domestic battery and solar photovoltaic system with deep reinforcement learning	Sep 10, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO systems	Sep 10, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Projected State-action Balancing Weights for Offline Reinforcement Learning	Sep 10, 2021	Causal Inferencereinforcement-learning	—Unverified
User Tampering in Reinforcement Learning Recommender Systems	Sep 9, 2021	Q-LearningRecommendation Systems	—Unverified
OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching	Sep 9, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Self-supervised Reinforcement Learning with Independently Controllable Subgoals	Sep 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures	Sep 9, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Incentivizing an Unknown Crowd	Sep 9, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions	Sep 8, 2021	Deep Reinforcement LearningRecommendation Systems	—Unverified
A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent	Sep 8, 2021	Reinforcement Learning (RL)	—Unverified
Convergence of Batch Asynchronous Stochastic Approximation With Applications to Reinforcement Learning	Sep 8, 2021	Q-Learningreinforcement-learning	—Unverified
Integrated and Adaptive Guidance and Control for Endoatmospheric Missiles via Reinforcement Learning	Sep 8, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified
A Deep Reinforcement Learning Approach for Online Parcel Assignment	Sep 8, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified
Safety-Critical Learning of Robot Control with Temporal Logic Specifications	Sep 7, 2021	Gaussian ProcessesReinforcement Learning (RL)	—Unverified
Robust Predictable Control	Sep 7, 2021	Computational EfficiencyDecision Making	—Unverified
On the impact of MDP design for Reinforcement Learning agents in Resource Management	Sep 7, 2021	Managementreinforcement-learning	—Unverified
CyGIL: A Cyber Gym for Training Autonomous Agents over Emulated Network Systems	Sep 7, 2021	Game DesignReinforcement Learning (RL)	—Unverified
Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning	Sep 6, 2021	Deep Reinforcement LearningMuJoCo	—Unverified
Delving into Macro Placement with Reinforcement Learning	Sep 6, 2021	reinforcement-learningReinforcement Learning	—Unverified
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser	Sep 6, 2021	DiversityReinforcement Learning (RL)	CodeCode Available
Guiding Global Placement With Reinforcement Learning	Sep 6, 2021	GPUreinforcement-learning	—Unverified
Deep SIMBAD: Active Landmark-based Self-localization Using Ranking -based Scene Descriptor	Sep 6, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Method for making multi-attribute decisions in wargames by combining intuitionistic fuzzy numbers with reinforcement learning	Sep 6, 2021	AttributeDecision Making	—Unverified
Temporal Shift Reinforcement Learning	Sep 5, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available

Show:10 25 50

← PrevPage 339 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified