Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 755 papers

Title	Date	Tasks	Status
PyTupli: A Scalable Infrastructure for Collaborative Offline Reinforcement Learning Projects	May 22, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
Think-J: Learning to Think for Generative LLM-as-a-Judge	May 20, 2025	Offline RLReinforcement Learning (RL)	CodeCode Available
Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning	May 20, 2025	MathOffline RL	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
Prior-Guided Diffusion Planning for Offline Reinforcement Learning	May 16, 2025	Decision MakingDenoising	—Unverified
Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data	May 14, 2025	Offline RLreinforcement-learning	—Unverified
Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL	May 13, 2025	Offline RLSafe Reinforcement Learning	—Unverified
What Matters for Batch Online Reinforcement Learning in Robotics?	May 12, 2025	Imitation LearningOffline RL	—Unverified
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains	May 12, 2025	continuous-controlContinuous Control	—Unverified
Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach	May 10, 2025	Autonomous DrivingOffline RL	—Unverified
Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning	May 9, 2025	D4RLOffline RL	—Unverified
Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach	May 8, 2025	D4RLDecision Making	—Unverified
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study	May 4, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Analytic Energy-Guided Policy Optimization for Offline Reinforcement Learning	May 3, 2025	D4RLOffline RL	—Unverified
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator	Apr 23, 2025	Offline RLReinforcement Learning (RL)	—Unverified
VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning	Apr 16, 2025	D4RLOffline RL	—Unverified
Towards Optimal Differentially Private Regret Bounds in Linear MDPs	Apr 12, 2025	Offline RLReinforcement Learning (RL)	—Unverified
Decision SpikeFormer: Spike-Driven Transformer for Decision Making	Apr 4, 2025	D4RLDecision Making	—Unverified
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation	Mar 26, 2025	D4RLData Augmentation	—Unverified
Offline Reinforcement Learning with Discrete Diffusion Skills	Mar 26, 2025	DecoderOffline RL	—Unverified
Behaviour Discovery and Attribution for Explainable Reinforcement Learning	Mar 19, 2025	Offline RLreinforcement-learning	—Unverified
Evaluation-Time Policy Switching for Offline Reinforcement Learning	Mar 15, 2025	Behavioural cloningOffline RL	—Unverified
The Pitfalls of Imitation Learning when Actions are Continuous	Mar 12, 2025	ChunkingImitation Learning	—Unverified
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning	Mar 10, 2025	Imitation LearningOffline RL	—Unverified
Policy Constraint by Only Support Constraint for Offline Reinforcement Learning	Mar 7, 2025	Offline RLreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 10 of 31Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified