Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3275 of 15113 papers

Title	Date	Tasks	Status	Hype
QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement Learning with Direct Thrust Control	Jun 15, 2023	CPUDeep Reinforcement Learning	CodeCode Available	2
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Datasets and Benchmarks for Offline Safe Reinforcement Learning	Jun 15, 2023	Autonomous DrivingBenchmarking	CodeCode Available	2
Real-Time Network-Level Traffic Signal Control: An Explicit Multiagent Coordination Method	Jun 15, 2023	Reinforcement Learning (RL)Traffic Signal Control	—Unverified	0
Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL) for comfortable and safe autonomous driving	Jun 15, 2023	Autonomous DrivingDeep Reinforcement Learning	—Unverified	0
Off-policy Evaluation in Doubly Inhomogeneous Environments	Jun 14, 2023	Offline RLOff-policy evaluation	CodeCode Available	0
Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources	Jun 14, 2023	Offline RLreinforcement-learning	—Unverified	0
A reinforcement learning strategy for p-adaptation in high order solvers	Jun 14, 2023	Computational Efficiencyreinforcement-learning	—Unverified	0
Skill-Critic: Refining Learned Skills for Hierarchical Reinforcement Learning	Jun 14, 2023	Autonomous RacingDecision Making	—Unverified	0
Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement Learning	Jun 14, 2023	Meta Reinforcement LearningNavigate	—Unverified	0
Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective	Jun 13, 2023	Learning-To-RankOffline RL	CodeCode Available	0
Multi-market Energy Optimization with Renewables via Reinforcement Learning	Jun 13, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning	Jun 13, 2023	General KnowledgeManagement	CodeCode Available	0
Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care	Jun 13, 2023	Offline RLQ-Learning	—Unverified	0
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second	Jun 13, 2023	GPUReinforcement Learning (RL)	CodeCode Available	1
Kernelized Reinforcement Learning with Order Optimal Regret Bounds	Jun 13, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning	Jun 13, 2023	D4RLEfficient Exploration	—Unverified	0
A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning	Jun 13, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
DenseLight: Efficient Control for Large-scale Traffic Signals with Dense Feedback	Jun 13, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	0
Online Prototype Alignment for Few-shot Policy Transfer	Jun 12, 2023	Domain AdaptationReinforcement Learning (RL)	CodeCode Available	0
Robust Reinforcement Learning through Efficient Adversarial Herding	Jun 12, 2023	MuJoCoreinforcement-learning	—Unverified	0
Combining Reinforcement Learning and Barrier Functions for Adaptive Risk Management in Portfolio Optimization	Jun 12, 2023	ManagementPortfolio Optimization	—Unverified	0
Diverse Projection Ensembles for Distributional Reinforcement Learning	Jun 12, 2023	Distributional Reinforcement LearningDiversity	—Unverified	0
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles	Jun 12, 2023	Offline RLreinforcement-learning	—Unverified	0
Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds	Jun 12, 2023	Reinforcement Learning (RL)	—Unverified	0

Show:10 25 50

← PrevPage 131 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified