Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 755 papers

Title	Date	Tasks	Status	Hype
Differentiable Tree Search Network	Jan 22, 2024	Decision MakingInductive Bias	CodeCode Available	5
A Clean Slate for Offline Reinforcement Learning	Apr 15, 2025	Offline RLreinforcement-learning	CodeCode Available	3
Flow Q-Learning	Feb 4, 2025	Action GenerationD4RL	CodeCode Available	3
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning	Jun 14, 2024	Offline RL	CodeCode Available	3
Is Value Learning Really the Main Bottleneck in Offline RL?	Jun 13, 2024	Imitation LearningOffline RL	CodeCode Available	3
Diffusion Guidance Is a Controllable Policy Improvement Operator	May 29, 2025	Offline RL	CodeCode Available	2
What Makes a Good Diffusion Planner for Decision Making?	Mar 1, 2025	Action GenerationDecision Making	CodeCode Available	2
Offline Reinforcement Learning for LLM Multi-Step Reasoning	Dec 20, 2024	GSM8KMath	CodeCode Available	2
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data	Dec 10, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available	2
Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective	Dec 2, 2024	Density EstimationOffline RL	CodeCode Available	2
Pretrained LLM Adapted with LoRA as a Decision Transformer for Offline RL in Quantitative Trading	Nov 26, 2024	Offline RLparameter-efficient fine-tuning	CodeCode Available	2
LongReward: Improving Long-context Large Language Models with AI Feedback	Oct 28, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available	2
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization	Sep 2, 2024	DiversityOffline RL	CodeCode Available	2
Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks	Aug 20, 2024	Multi-agent Reinforcement LearningMulti-Task Learning	CodeCode Available	2
A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data	Jul 23, 2024	Autonomous DrivingAutonomous Racing	CodeCode Available	2
Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning	May 27, 2024	Gym halfcheetah-mediumGym halfcheetah-medium-expert	CodeCode Available	2
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization	May 25, 2024	continuous-controlContinuous Control	CodeCode Available	2
Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings	Feb 27, 2024	DiversityOffline RL	CodeCode Available	2
Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions	Feb 21, 2024	Decision MakingImitation Learning	CodeCode Available	2
Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model	Jan 19, 2024	Offline RLreinforcement-learning	CodeCode Available	2
AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning	Aug 7, 2023	Offline RLreinforcement-learning	CodeCode Available	2
FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation	May 22, 2023	Imitation LearningMotion Planning	CodeCode Available	2
Dungeons and Data: A Large-Scale NetHack Dataset	Nov 1, 2022	Decision MakingNetHack	CodeCode Available	2
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning	Aug 12, 2022	D4RLOffline RL	CodeCode Available	2
Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning	Jun 17, 2022	Few-Shot LearningOffline RL	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 31Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified