Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6476–6500 of 15113 papers

Title	Date	Tasks	Status	Hype
A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning	Jan 3, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified	0
Execute Order 66: Targeted Data Poisoning for Reinforcement Learning	Jan 3, 2022	Atari GamesData Poisoning	—Unverified	0
Actor-Critic Network for Q&A in an Adversarial Environment	Jan 3, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Hybrid intelligence for dynamic job-shop scheduling with deep reinforcement learning and attention mechanism	Jan 3, 2022	Deep Reinforcement LearningGraph Representation Learning	CodeCode Available	1
Robust Algorithmic Collusion	Jan 2, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified	0
Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference	Jan 2, 2022	continuous-controlContinuous Control	CodeCode Available	0
Reinforcement Learning for Task Specifications with Action-Constraints	Jan 2, 2022	Q-Learningreinforcement-learning	—Unverified	0
Temporal Complementarity-Guided Reinforcement Learning for Image-to-Video Person Re-Identification	Jan 1, 2022	Deep Reinforcement LearningImage-To-Video Person Re-Identification	—Unverified	0
Symmetry-Aware Neural Architecture for Embodied Visual Exploration	Jan 1, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
Joint Learning-Based Stabilization of Multiple Unknown Linear Systems	Jan 1, 2022	Reinforcement Learning (RL)	—Unverified	0
A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning	Jan 1, 2022	continuous-controlContinuous Control	—Unverified	0
Toward Pareto Efficient Fairness-Utility Trade-off inRecommendation through Reinforcement Learning	Jan 1, 2022	FairnessMulti-Objective Reinforcement Learning	—Unverified	0
Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement Learning	Jan 1, 2022	Q-Learningreinforcement-learning	—Unverified	0
Transfer RL across Observation Feature Spaces via Model-Based Regularization	Jan 1, 2022	Reinforcement Learning (RL)	—Unverified	0
Stochastic convex optimization for provably efficient apprenticeship learning	Dec 31, 2021	Imitation Learningreinforcement-learning	—Unverified	0
Using Graph-Aware Reinforcement Learning to Identify Winning Strategies in Diplomacy Games (Student Abstract)	Dec 31, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Single-Shot Pruning for Offline Reinforcement Learning	Dec 31, 2021	continuous-controlContinuous Control	—Unverified	0
Robust Entropy-regularized Markov Decision Processes	Dec 31, 2021	Imitation LearningReinforcement Learning (RL)	—Unverified	0
SimSR: Simple Distance-based State Representation for Deep Reinforcement Learning	Dec 31, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1
A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning	Dec 31, 2021	Atari GamesMeta Reinforcement Learning	CodeCode Available	0
Importance of Empirical Sample Complexity Analysis for Offline Reinforcement Learning	Dec 31, 2021	Offline RLreinforcement-learning	—Unverified	0
Stability-Preserving Automatic Tuning of PID Control with Reinforcement Learning	Dec 30, 2021	reinforcement-learningReinforcement Learning	—Unverified	0
Reversible Upper Confidence Bound Algorithm to Generate Diverse Optimized Candidates	Dec 30, 2021	Drug Discoveryreinforcement-learning	—Unverified	0
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation	Dec 30, 2021	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified	0
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates	Dec 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified	0

Show:10 25 50

← PrevPage 260 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified