Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 15113 papers

Title	Date	Tasks	Status	Hype
QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement Learning with Direct Thrust Control	Jun 15, 2023	CPUDeep Reinforcement Learning	CodeCode Available	2
Datasets and Benchmarks for Offline Safe Reinforcement Learning	Jun 15, 2023	Autonomous DrivingBenchmarking	CodeCode Available	2
Real-Time Network-Level Traffic Signal Control: An Explicit Multiagent Coordination Method	Jun 15, 2023	Reinforcement Learning (RL)Traffic Signal Control	—Unverified	0
Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL) for comfortable and safe autonomous driving	Jun 15, 2023	Autonomous DrivingDeep Reinforcement Learning	—Unverified	0
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources	Jun 14, 2023	Offline RLreinforcement-learning	—Unverified	0
Off-policy Evaluation in Doubly Inhomogeneous Environments	Jun 14, 2023	Offline RLOff-policy evaluation	CodeCode Available	0
A reinforcement learning strategy for p-adaptation in high order solvers	Jun 14, 2023	Computational Efficiencyreinforcement-learning	—Unverified	0
Skill-Critic: Refining Learned Skills for Hierarchical Reinforcement Learning	Jun 14, 2023	Autonomous RacingDecision Making	—Unverified	0
Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement Learning	Jun 14, 2023	Meta Reinforcement LearningNavigate	—Unverified	0
Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective	Jun 13, 2023	Learning-To-RankOffline RL	CodeCode Available	0
Multi-market Energy Optimization with Renewables via Reinforcement Learning	Jun 13, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning	Jun 13, 2023	General KnowledgeManagement	CodeCode Available	0
Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care	Jun 13, 2023	Offline RLQ-Learning	—Unverified	0
Kernelized Reinforcement Learning with Order Optimal Regret Bounds	Jun 13, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
A Simple Unified Uncertainty-Guided Framework for Offline-to-Online Reinforcement Learning	Jun 13, 2023	D4RLEfficient Exploration	—Unverified	0
DenseLight: Efficient Control for Large-scale Traffic Signals with Dense Feedback	Jun 13, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	0
A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning	Jun 13, 2023	reinforcement-learningReinforcement Learning	—Unverified	0
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second	Jun 13, 2023	GPUReinforcement Learning (RL)	CodeCode Available	1
Robust Reinforcement Learning through Efficient Adversarial Herding	Jun 12, 2023	MuJoCoreinforcement-learning	—Unverified	0
Combining Reinforcement Learning and Barrier Functions for Adaptive Risk Management in Portfolio Optimization	Jun 12, 2023	ManagementPortfolio Optimization	—Unverified	0
Online Prototype Alignment for Few-shot Policy Transfer	Jun 12, 2023	Domain AdaptationReinforcement Learning (RL)	CodeCode Available	0
Diverse Projection Ensembles for Distributional Reinforcement Learning	Jun 12, 2023	Distributional Reinforcement LearningDiversity	—Unverified	0
Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds	Jun 12, 2023	Reinforcement Learning (RL)	—Unverified	0
Transcendental Idealism of Planner: Evaluating Perception from Planning Perspective for Autonomous Driving	Jun 12, 2023	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles	Jun 12, 2023	Offline RLreinforcement-learning	—Unverified	0
Policy Regularization with Dataset Constraint for Offline Reinforcement Learning	Jun 11, 2023	Offline RLreinforcement-learning	CodeCode Available	1
Digital Twin-Enhanced Wireless Indoor Navigation: Achieving Efficient Environment Sensing with Zero-Shot Reinforcement Learning	Jun 11, 2023	Navigatereinforcement-learning	CodeCode Available	1
Reinforcement Learning in Robotic Motion Planning by Combined Experience-based Planning and Self-Imitation Learning	Jun 11, 2023	Imitation LearningMotion Planning	—Unverified	0
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning	Jun 10, 2023	Decision MakingHierarchical Reinforcement Learning	—Unverified	0
Bring Your Own (Non-Robust) Algorithm to Solve Robust MDPs by Estimating The Worst Kernel	Jun 9, 2023	Decision Makingreinforcement-learning	—Unverified	0
The Role of Diverse Replay for Generalisation in Reinforcement Learning	Jun 9, 2023	Diversityreinforcement-learning	—Unverified	0
Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation	Jun 9, 2023	Policy Gradient Methodsreinforcement-learning	—Unverified	0
On the Importance of Feature Decorrelation for Unsupervised Representation Learning in Reinforcement Learning	Jun 9, 2023	Reinforcement Learning (RL)Representation Learning	CodeCode Available	1
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning	Jun 9, 2023	D4RLOffline RL	—Unverified	0
Learning Not to Spoof	Jun 9, 2023	Reinforcement Learning (RL)	—Unverified	0
Approximate information state based convergence analysis of recurrent Q-learning	Jun 9, 2023	Q-LearningReinforcement Learning (RL)	—Unverified	0
An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling Problems Based on Constraint Programming	Jun 9, 2023	Combinatorial OptimizationFeature Engineering	CodeCode Available	1
Decoupled Prioritized Resampling for Offline RL	Jun 8, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Instructed Diffuser with Temporal Condition Guidance for Offline Reinforcement Learning	Jun 8, 2023	Decision MakingOffline RL	—Unverified	0
Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL	Jun 7, 2023	Data AugmentationOffline RL	CodeCode Available	1
Timing Process Interventions with Causal Inference and Reinforcement Learning	Jun 7, 2023	Causal Inferencereinforcement-learning	—Unverified	0
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data	Jun 6, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments	Jun 6, 2023	Hierarchical Reinforcement LearningNavigate	—Unverified	0
Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory	Jun 6, 2023	DiversityReinforcement Learning (RL)	CodeCode Available	1
Mildly Constrained Evaluation Policy for Offline Reinforcement Learning	Jun 6, 2023	D4RLMuJoCo	CodeCode Available	0
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining	Jun 6, 2023	Knowledge DistillationModel-based Reinforcement Learning	CodeCode Available	0
Boosting Offline Reinforcement Learning with Action Preference Query	Jun 6, 2023	Autonomous DrivingD4RL	—Unverified	0
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation	Jun 6, 2023	Offline RLReinforcement Learning (RL)	—Unverified	0
RLtools: A Fast, Portable Deep Reinforcement Learning Library for Continuous Control	Jun 6, 2023	continuous-controlContinuous Control	CodeCode Available	2

Show:10 25 50

← PrevPage 66 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified