Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 755 papers

Title	Date	Tasks	Status
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters	May 27, 2022	D4RLOffline RL	—Unverified
Yes, Q-learning Helps Offline In-Context RL	Feb 24, 2025	In-Context Reinforcement LearningMuJoCo	—Unverified
You Can't Count on Luck: Why Decision Transformers and RvS Fail in Stochastic Environments	May 31, 2022	Offline RLPlaying the Game of 2048	—Unverified
You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL	Oct 5, 2021	D4RLOffline RL	—Unverified
Your Offline Policy is Not Trustworthy: Bilevel Reinforcement Learning for Sequential Portfolio Optimization	May 19, 2025	Offline RLPortfolio Optimization	—Unverified
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators	Feb 13, 2021	Offline RLreinforcement-learning	—Unverified
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes	May 26, 2022	Causal InferenceOffline RL	—Unverified
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning	Jul 10, 2024	Decision MakingOffline RL	—Unverified
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning	May 5, 2022	Offline RLreinforcement-learning	—Unverified
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage	Jul 13, 2021	Offline RLreinforcement-learning	—Unverified
Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning	Oct 2, 2023	Offline RLreinforcement-learning	—Unverified
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity	Feb 28, 2022	Offline RLQ-Learning	—Unverified
2vec: Policy Representations with Successor Features	Jun 16, 2023	Offline RL	—Unverified
Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning	Oct 9, 2023	continuous-controlContinuous Control	—Unverified
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone	Dec 9, 2024	global-optimizationImitation Learning	—Unverified
Policy-Based Trajectory Clustering in Offline Reinforcement Learning	Jun 10, 2025	ClusteringD4RL	—Unverified
Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning	Jun 9, 2021	Offline RLOpen-Ended Question Answering	—Unverified
Policy Gradients Incorporating the Future	Aug 4, 2021	Offline RLReinforcement Learning (RL)	—Unverified
Policy-Guided Causal State Representation for Offline Reinforcement Learning Recommendation	Feb 4, 2025	feature selectionOffline RL	—Unverified
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning	Mar 10, 2025	Imitation LearningOffline RL	—Unverified
Preference Elicitation for Offline Reinforcement Learning	Jun 26, 2024	Offline RLreinforcement-learning	—Unverified
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning	May 29, 2024	Offline RLreinforcement-learning	—Unverified
Preserving Expert-Level Privacy in Offline Reinforcement Learning	Nov 18, 2024	Offline RLreinforcement-learning	—Unverified
Pretraining a Shared Q-Network for Data-Efficient Offline Reinforcement Learning	May 9, 2025	D4RLOffline RL	—Unverified
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning	Jun 27, 2023	D4RLOffline RL	—Unverified
PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement	Nov 26, 2024	Offline RLReinforcement Learning (RL)	—Unverified
Prompting Decision Transformer for Few-Shot Policy Generalization	Jun 27, 2022	Few-Shot LearningInductive Bias	—Unverified
Provable Benefit of Multitask Representation Learning in Reinforcement Learning	Jun 13, 2022	Offline RLreinforcement-learning	—Unverified
What can online reinforcement learning with function approximation benefit from general coverage conditions?	Apr 25, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation	Feb 25, 2023	Offline RLQ-Learning	—Unverified
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward	Jun 13, 2022	Offline RLreinforcement-learning	—Unverified
Provably Efficient Offline Reinforcement Learning with Perturbed Data Sources	Jun 14, 2023	Offline RLreinforcement-learning	—Unverified
Provably Efficient Representation Selection in Low-rank Markov Decision Processes: From Online to Offline RL	Jun 22, 2021	Deep Reinforcement LearningOffline RL	—Unverified
Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care	Jun 13, 2023	Offline RLQ-Learning	—Unverified
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL	Sep 8, 2022	D4RLOffline RL	—Unverified
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning	Nov 7, 2024	Offline RLPolicy Gradient Methods	—Unverified
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions	Sep 18, 2023	Imitation LearningOffline RL	—Unverified
Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning	Sep 12, 2024	D4RLOffline RL	—Unverified
Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World	Aug 15, 2023	Offline RLreinforcement-learning	—Unverified
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning	Feb 8, 2024	Deep Reinforcement LearningOffline RL	—Unverified
Real-World Offline Reinforcement Learning from Vision Language Model Feedback	Nov 8, 2024	Language ModelingLanguage Modelling	—Unverified
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage	Feb 5, 2023	Offline RLQ-Learning	—Unverified
Regularized Behavior Value Estimation	Mar 17, 2021	Offline RL	—Unverified
Reinforced Self-Training (ReST) for Language Modeling	Aug 17, 2023	Language ModelingLanguage Modelling	—Unverified
Reinforcement Learning: An Overview	Dec 6, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Reinforcement Learning-based Recommender Systems with Large Language Models for State Reward and Action Modeling	Mar 25, 2024	Offline RLRecommendation Systems	—Unverified
Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data	May 14, 2025	Offline RLreinforcement-learning	—Unverified
Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism	May 29, 2023	Decision MakingEconometrics	—Unverified
Reliable validation of Reinforcement Learning Benchmarks	Mar 2, 2022	BenchmarkingData Compression	—Unverified

Show:10 25 50

← PrevPage 13 of 16Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified