Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–625 of 755 papers

Title	Date	Tasks	Status
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters	May 27, 2022	D4RLOffline RL	—Unverified
Yes, Q-learning Helps Offline In-Context RL	Feb 24, 2025	In-Context Reinforcement LearningMuJoCo	—Unverified
You Can't Count on Luck: Why Decision Transformers and RvS Fail in Stochastic Environments	May 31, 2022	Offline RLPlaying the Game of 2048	—Unverified
You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL	Oct 5, 2021	D4RLOffline RL	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators	Feb 13, 2021	Offline RLreinforcement-learning	—Unverified
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes	May 26, 2022	Causal InferenceOffline RL	—Unverified
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning	Jul 10, 2024	Decision MakingOffline RL	—Unverified
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning	May 5, 2022	Offline RLreinforcement-learning	—Unverified
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage	Jul 13, 2021	Offline RLreinforcement-learning	—Unverified
Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning	Oct 2, 2023	Offline RLreinforcement-learning	—Unverified
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity	Feb 28, 2022	Offline RLQ-Learning	—Unverified
2vec: Policy Representations with Successor Features	Jun 16, 2023	Offline RL	—Unverified
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning	Oct 9, 2023	continuous-controlContinuous Control	—Unverified
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone	Dec 9, 2024	global-optimizationImitation Learning	—Unverified
Policy-Based Trajectory Clustering in Offline Reinforcement Learning	Jun 10, 2025	ClusteringD4RL	—Unverified
Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning	Jun 9, 2021	Offline RLOpen-Ended Question Answering	—Unverified
Policy Gradients Incorporating the Future	Aug 4, 2021	Offline RLReinforcement Learning (RL)	—Unverified
Policy-Guided Causal State Representation for Offline Reinforcement Learning Recommendation	Feb 4, 2025	feature selectionOffline RL	—Unverified
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning	Mar 10, 2025	Imitation LearningOffline RL	—Unverified
Preference Elicitation for Offline Reinforcement Learning	Jun 26, 2024	Offline RLreinforcement-learning	—Unverified
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning	May 29, 2024	Offline RLreinforcement-learning	—Unverified
Preserving Expert-Level Privacy in Offline Reinforcement Learning	Nov 18, 2024	Offline RLreinforcement-learning	—Unverified
Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning	May 9, 2025	D4RLOffline RL	—Unverified
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning	Jun 27, 2023	D4RLOffline RL	—Unverified

Show:10 25 50

← PrevPage 25 of 31Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified