Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7426–7450 of 15113 papers

Title	Date	Tasks	Status
Dynamic Virtual Network Embedding Algorithm based on Graph Convolution Neural Network and Reinforcement Learning	Feb 3, 2022	Graph Neural NetworkNetwork Embedding	—Unverified
Challenging Common Assumptions in Convex Reinforcement Learning	Feb 3, 2022	Imitation Learningreinforcement-learning	—Unverified
Influence-Augmented Local Simulators: A Scalable Solution for Fast Deep RL in Large Networked Systems	Feb 3, 2022	Reinforcement Learning (RL)	—Unverified
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization	Feb 2, 2022	Quantizationreinforcement-learning	—Unverified
Federated Reinforcement Learning for Collective Navigation of Robotic Swarms	Feb 2, 2022	Deep Reinforcement LearningFederated Learning	—Unverified
Improved Regret for Differentially Private Exploration in Linear MDP	Feb 2, 2022	Decision MakingPrivacy Preserving	—Unverified
Transfer in Reinforcement Learning via Regret Bounds for Learning Agents	Feb 2, 2022	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement learning of optimal active particle navigation	Feb 1, 2022	Deep Reinforcement LearningNavigate	—Unverified
Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning	Feb 1, 2022	Drug Discoveryreinforcement-learning	—Unverified
Sequential Search with Off-Policy Reinforcement Learning	Feb 1, 2022	reinforcement-learningReinforcement Learning	—Unverified
A General, Evolution-Inspired Reward Function for Social Robotics	Feb 1, 2022	Cultural Vocal Bursts Intensity PredictionImitation Learning	CodeCode Available
Improving Sample Efficiency of Value Based Models Using Attention and Vision Transformers	Feb 1, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Distributional Reinforcement Learning with Regularized Wasserstein Loss	Feb 1, 2022	Atari GamesDistributional Reinforcement Learning	CodeCode Available
DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning	Jan 31, 2022	continuous-controlContinuous Control	CodeCode Available
Cooperative Online Learning in Stochastic and Adversarial MDPs	Jan 31, 2022	Reinforcement Learning (RL)	—Unverified
Score vs. Winrate in Score-Based Games: which Reward for Reinforcement Learning?	Jan 31, 2022	Game of Goreinforcement-learning	—Unverified
Compositional Multi-Object Reinforcement Learning with Linear Relation Networks	Jan 31, 2022	Graph Neural NetworkObject	—Unverified
Warmth and competence in human-agent cooperation	Jan 31, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
On solutions of the distributional Bellman equation	Jan 31, 2022	Distributional Reinforcement Learningreinforcement-learning	—Unverified
Steady-State Error Compensation in Reference Tracking and Disturbance Rejection Problems for Reinforcement Learning-Based Control	Jan 31, 2022	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available
Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback	Jan 31, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Reinforcement Learning with Heterogeneous Data: Estimation and Inference	Jan 31, 2022	Decision Makingreinforcement-learning	—Unverified
Communication-Efficient Consensus Mechanism for Federated Reinforcement Learning	Jan 30, 2022	Decision MakingFederated Learning	—Unverified
Contrastive Learning from Demonstrations	Jan 30, 2022	Contrastive Learningreinforcement-learning	—Unverified
Coordinated Frequency Control through Safe Reinforcement Learning	Jan 30, 2022	AI AgentDecision Making	—Unverified

Show:10 25 50

← PrevPage 298 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified