Offline RL

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 755 papers

Title	Date	Tasks	Status	Hype
Integrating Domain Knowledge for handling Limited Data in Offline RL	Jun 11, 2024	Offline RLReinforcement Learning (RL)	—Unverified	0
PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer	Jun 10, 2024	continuous-controlContinuous Control	CodeCode Available	1
Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning?	Jun 10, 2024	Deep Reinforcement LearningOffline RL	CodeCode Available	0
Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning	Jun 10, 2024	Offline RLReinforcement Learning (RL)	—Unverified	0
Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL	Jun 8, 2024	Data AugmentationMamba	CodeCode Available	0
Stabilizing Extreme Q-learning by Maclaurin Expansion	Jun 7, 2024	D4RLOffline RL	CodeCode Available	0
Strategically Conservative Q-Learning	Jun 6, 2024	D4RLOffline RL	CodeCode Available	1
Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models	Jun 6, 2024	Offline RLreinforcement-learning	—Unverified	0
UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning	Jun 5, 2024	D4RLOffline RL	—Unverified	0
A Fast Convergence Theory for Offline Decision Making	Jun 3, 2024	Decision MakingOffline RL	—Unverified	0
Causal prompting model-based offline reinforcement learning	Jun 3, 2024	modelOffline RL	—Unverified	0
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning	May 30, 2024	D4RLDenoising	CodeCode Available	1
Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory	May 29, 2024	Imitation LearningOffline RL	—Unverified	0
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning	May 29, 2024	Offline RLreinforcement-learning	—Unverified	0
Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination	May 28, 2024	Offline RLreinforcement-learning	CodeCode Available	1
Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL	May 28, 2024	Offline RLReinforcement Learning (RL)	CodeCode Available	1
AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization	May 28, 2024	D4RLOffline RL	CodeCode Available	0
Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier	May 28, 2024	Language ModelingLanguage Modelling	—Unverified	0
OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators	May 27, 2024	Decision MakingOffline RL	—Unverified	0
Trajectory Data Suffices for Statistically Efficient Learning in Offline RL with Linear q^π-Realizability and Concentrability	May 27, 2024	Computational EfficiencyOffline RL	—Unverified	0
Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning	May 27, 2024	Gym halfcheetah-mediumGym halfcheetah-medium-expert	CodeCode Available	2
Q-value Regularized Transformer for Offline Reinforcement Learning	May 27, 2024	D4RLOffline RL	CodeCode Available	1
GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning	May 27, 2024	Data AugmentationDecision Making	CodeCode Available	1
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization	May 25, 2024	continuous-controlContinuous Control	CodeCode Available	2
Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search	May 24, 2024	Code GenerationLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 31Next →

All datasets D4RL Walker2d

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	KFC	Average Reward	81.8	—	Unverified
2	ADMPO	Average Reward	81	—	Unverified
3	Decision Transformer (DT)	Average Reward	73.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ParPI	D4RL Normalized Score	151.4	—	Unverified