Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 755 papers

Title	Date	Tasks	Status	Hype	Score
Differentiable Tree Search Network	Jan 22, 2024	Decision MakingInductive Bias	CodeCode Available	5	5
Flow Q-Learning	Feb 4, 2025	Action GenerationD4RL	CodeCode Available	3	5
A Clean Slate for Offline Reinforcement Learning	Apr 15, 2025	Offline RLreinforcement-learning	CodeCode Available	3	5
Is Value Learning Really the Main Bottleneck in Offline RL?	Jun 13, 2024	Imitation LearningOffline RL	CodeCode Available	3	5
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning	Jun 14, 2024	Offline RL	CodeCode Available	3	5
Dungeons and Data: A Large-Scale NetHack Dataset	Nov 1, 2022	Decision MakingNetHack	CodeCode Available	2	5
Offline RL for Natural Language Generation with Implicit Language Q Learning	Jun 5, 2022	Language ModellingOffline RL	CodeCode Available	2	5
Diffusion Guidance Is a Controllable Policy Improvement Operator	May 29, 2025	Offline RL	CodeCode Available	2	5
What Makes a Good Diffusion Planner for Decision Making?	Mar 1, 2025	Action GenerationDecision Making	CodeCode Available	2	5
Rethinking Attention with Performers	Sep 30, 2020	D4RLImage Generation	CodeCode Available	2	5
Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings	Feb 27, 2024	DiversityOffline RL	CodeCode Available	2	5
Pretrained LLM Adapted with LoRA as a Decision Transformer for Offline RL in Quantitative Trading	Nov 26, 2024	Offline RLparameter-efficient fine-tuning	CodeCode Available	2	5
Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning	May 27, 2024	Gym halfcheetah-mediumGym halfcheetah-medium-expert	CodeCode Available	2	5
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data	Dec 10, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available	2	5
Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations	Jun 9, 2022	Benchmarkingcontinuous-control	CodeCode Available	2	5
FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation	May 22, 2023	Imitation LearningMotion Planning	CodeCode Available	2	5
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization	Sep 2, 2024	DiversityOffline RL	CodeCode Available	2	5
Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks	Aug 20, 2024	Multi-agent Reinforcement LearningMulti-Task Learning	CodeCode Available	2	5
Offline Reinforcement Learning for LLM Multi-Step Reasoning	Dec 20, 2024	GSM8KMath	CodeCode Available	2	5
Reformer: The Efficient Transformer	Jan 13, 2020	D4RLImage Generation	CodeCode Available	2	5
Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning	Jun 17, 2022	Few-Shot LearningOffline RL	CodeCode Available	2	5
VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning	Feb 17, 2022	Deep Reinforcement LearningOffline RL	CodeCode Available	2	5
D4RL: Datasets for Deep Data-Driven Reinforcement Learning	Apr 15, 2020	D4RLOffline RL	CodeCode Available	2	5
A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data	Jul 23, 2024	Autonomous DrivingAutonomous Racing	CodeCode Available	2	5
Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model	Jan 19, 2024	Offline RLreinforcement-learning	CodeCode Available	2	5
Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective	Dec 2, 2024	Density EstimationOffline RL	CodeCode Available	2	5
Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions	Feb 21, 2024	Decision MakingImitation Learning	CodeCode Available	2	5
LongReward: Improving Long-context Large Language Models with AI Feedback	Oct 28, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available	2	5
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization	May 25, 2024	continuous-controlContinuous Control	CodeCode Available	2	5
Flowformer: Linearizing Transformers with Conservation Flows	Feb 13, 2022	D4RLOffline RL	CodeCode Available	2	5
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning	Aug 12, 2022	D4RLOffline RL	CodeCode Available	2	5
AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning	Aug 7, 2023	Offline RLreinforcement-learning	CodeCode Available	2	5
CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning	Apr 18, 2022	ChatbotOffline RL	CodeCode Available	2	5
All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL	Feb 24, 2022	AllImitation Learning	CodeCode Available	1	5
Alleviating Matthew Effect of Offline Reinforcement Learning in Interactive Recommendation	Jul 10, 2023	Decision MakingInteractive Recommendation	CodeCode Available	1	5
Conservative Offline Distributional Reinforcement Learning	Jul 12, 2021	D4RLDistributional Reinforcement Learning	CodeCode Available	1	5
Conservative Q-Learning for Offline Reinforcement Learning	Jun 8, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
AdaCat: Adaptive Categorical Discretization for Autoregressive Models	Aug 3, 2022	Density EstimationOffline RL	CodeCode Available	1	5
Decision Transformer: Reinforcement Learning via Sequence Modeling	Jun 2, 2021	Atari GamesD4RL	CodeCode Available	1	5
Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information	Oct 31, 2022	Offline RLReinforcement Learning (RL)	CodeCode Available	1	5
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning	May 24, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1	5
DataLight: Offline Data-Driven Traffic Signal Control	Mar 20, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1	5
COMBO: Conservative Offline Model-Based Policy Optimization	Feb 16, 2021	modelOffline RL	CodeCode Available	1	5
Adversarially Trained Actor Critic for Offline Reinforcement Learning	Feb 5, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System	Apr 4, 2022	Causal Inferencecounterfactual	CodeCode Available	1	5
Zero-Shot Reinforcement Learning from Low Quality Data	Sep 26, 2023	Offline RLreinforcement-learning	CodeCode Available	1	5
Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization	Jun 5, 2020	Offline RLreinforcement-learning	CodeCode Available	1	5
Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning	Sep 22, 2023	counterfactualMulti-agent Reinforcement Learning	CodeCode Available	1	5
Critic-Guided Decision Transformer for Offline Reinforcement Learning	Dec 21, 2023	D4RLOffline RL	CodeCode Available	1	5
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets	Oct 6, 2023	D4RLDecision Making	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 16Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified