Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 755 papers

Title	Date	Tasks	Status
Robust Bandwidth Estimation for Real-Time Communication with Offline Reinforcement Learning	Jul 8, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning	Jun 26, 2025	Action GenerationDecision Making	—Unverified
Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL	Jun 26, 2025	Offline RL	—Unverified
Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity	Jun 20, 2025	continuous-controlContinuous Control	CodeCode Available
CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization	Jun 18, 2025	D4RLOffline RL	CodeCode Available
IntelliLung: Advancing Safe Mechanical Ventilation using Offline RL with Hybrid Actions and Clinically Aligned Rewards	Jun 17, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Toward Explainable Offline RL: Analyzing Representations in Intrinsically Motivated Decision Transformers	Jun 16, 2025	Decision MakingDecision Making Under Uncertainty	—Unverified
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty	Jun 14, 2025	continuous-controlContinuous Control	CodeCode Available
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning	Jun 11, 2025	D4RLDeep Reinforcement Learning	—Unverified
Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood	Jun 10, 2025	Computational EfficiencyD4RL	CodeCode Available
MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning	Jun 10, 2025	Data Augmentationmodel	CodeCode Available
Policy-Based Trajectory Clustering in Offline Reinforcement Learning	Jun 10, 2025	ClusteringD4RL	—Unverified
Semi-gradient DICE for Offline Constrained Reinforcement Learning	Jun 10, 2025	Offline RLOff-policy evaluation	—Unverified
How to Provably Improve Return Conditioned Supervised Learning?	Jun 10, 2025	Decision MakingOffline RL	—Unverified
Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation	Jun 9, 2025	Decision MakingMuJoCo	—Unverified
Learning to Clarify by Reinforcement Learning Through Reward-Weighted Fine-Tuning	Jun 8, 2025	Offline RLQuestion Answering	—Unverified
Enhanced DACER Algorithm with High Diffusion Efficiency	May 29, 2025	DenoisingImitation Learning	—Unverified
ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning	May 29, 2025	DenoisingMuJoCo	—Unverified
Scaling Offline RL via Efficient and Expressive Shortcut Models	May 28, 2025	Offline RLreinforcement-learning	—Unverified
SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning	May 28, 2025	Offline RLreinforcement-learning	CodeCode Available
Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL	May 26, 2025	D4RLOffline RL	CodeCode Available
GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning	May 24, 2025	GPUOffline RL	—Unverified
Diffusion Self-Weighted Guidance for Offline Reinforcement Learning	May 23, 2025	Offline RLreinforcement-learning	—Unverified
Offline Guarded Safe Reinforcement Learning for Medical Treatment Optimization Strategies	May 22, 2025	Offline RLQ-Learning	—Unverified
Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only	May 22, 2025	Imitation LearningOffline RL	—Unverified
PyTupli: A Scalable Infrastructure for Collaborative Offline Reinforcement Learning Projects	May 22, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
Think-J: Learning to Think for Generative LLM-as-a-Judge	May 20, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning	May 20, 2025	MathOffline RL	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
Prior-Guided Diffusion Planning for Offline Reinforcement Learning	May 16, 2025	Decision MakingDenoising	—Unverified
Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data	May 14, 2025	Offline RLreinforcement-learning	—Unverified
Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL	May 13, 2025	Offline RLSafe Reinforcement Learning	—Unverified
What Matters for Batch Online Reinforcement Learning in Robotics?	May 12, 2025	Imitation LearningOffline RL	—Unverified
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains	May 12, 2025	continuous-controlContinuous Control	—Unverified
Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach	May 10, 2025	Autonomous DrivingOffline RL	—Unverified
Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning	May 9, 2025	D4RLOffline RL	—Unverified
Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach	May 8, 2025	D4RLDecision Making	—Unverified
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study	May 4, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning	May 3, 2025	D4RLOffline RL	—Unverified
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator	Apr 23, 2025	Offline RLReinforcement Learning (RL)	—Unverified
VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning	Apr 16, 2025	D4RLOffline RL	—Unverified
Towards Optimal Differentially Private Regret Bounds in Linear MDPs	Apr 12, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Decision SpikeFormer: Spike-Driven Transformer for Decision Making	Apr 4, 2025	D4RLDecision Making	—Unverified
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation	Mar 26, 2025	D4RLData Augmentation	—Unverified
Offline Reinforcement Learning with Discrete Diffusion Skills	Mar 26, 2025	DecoderOffline RL	—Unverified
Behaviour Discovery and Attribution for Explainable Reinforcement Learning	Mar 19, 2025	Offline RLreinforcement-learning	—Unverified
Evaluation-Time Policy Switching for Offline Reinforcement Learning	Mar 15, 2025	Behavioural cloningOffline RL	—Unverified
The Pitfalls of Imitation Learning when Actions are Continuous	Mar 12, 2025	ChunkingImitation Learning	—Unverified
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning	Mar 10, 2025	Imitation LearningOffline RL	—Unverified
Policy Constraint by Only Support Constraint for Offline Reinforcement Learning	Mar 7, 2025	Offline RLreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 5 of 16Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified