Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 265 papers

Title	Date	Tasks	Status	Hype
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Trajectory World Models for Heterogeneous Environments	Feb 3, 2025	DiversityModel Predictive Control	CodeCode Available	1
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation	Nov 30, 2023	Offline RLOff-policy evaluation	CodeCode Available	1
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation	Nov 30, 2023	Benchmarkingcounterfactual	CodeCode Available	1
Off-Policy Evaluation of Ranking Policies under Diverse User Behavior	Jun 26, 2023	Off-policy evaluation	CodeCode Available	1
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
A Policy-Guided Imitation Approach for Offline Reinforcement Learning	Oct 15, 2022	D4RLOffline RL	CodeCode Available	1
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation	Apr 19, 2022	Offline RLOff-policy evaluation	CodeCode Available	1
Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning	Feb 19, 2022	Off-policy evaluation	CodeCode Available	1
BCORLE(): An Offline Reinforcement Learning and Evaluation Framework for Coupons Allocation in E-commerce Market	Dec 1, 2021	Off-policy evaluationreinforcement-learning	CodeCode Available	1
Evaluating the Robustness of Off-Policy Evaluation	Aug 31, 2021	Off-policy evaluationRecommendation Systems	CodeCode Available	1
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings	Jul 23, 2021	Computational EfficiencyDecision Making	CodeCode Available	1
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation	Jun 24, 2021	Meta Reinforcement LearningOff-policy evaluation	CodeCode Available	1
Active Offline Policy Selection	Jun 18, 2021	Bayesian OptimizationOff-policy evaluation	CodeCode Available	1
Offline RL Without Off-Policy Evaluation	Jun 16, 2021	D4RLOffline RL	CodeCode Available	1
A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation	Jun 12, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
Benchmarks for Deep Off-Policy Evaluation	Mar 30, 2021	Benchmarkingcontinuous-control	CodeCode Available	1
Optimal Off-Policy Evaluation from Multiple Logging Policies	Oct 21, 2020	Off-policy evaluation	CodeCode Available	1
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation	Aug 17, 2020	Off-policy evaluation	CodeCode Available	1
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions	Jul 25, 2020	counterfactualNews Recommendation	CodeCode Available	1
Off-Policy Evaluation and Learning for the Future under Non-Stationarity	Jun 25, 2025	Off-policy evaluation	—Unverified	0
A Principled Path to Fitted Distributional Evaluation	Jun 24, 2025	Atari GamesOff-policy evaluation	—Unverified	0
Semi-gradient DICE for Offline Constrained Reinforcement Learning	Jun 10, 2025	Offline RLOff-policy evaluation	—Unverified	0
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation	May 27, 2025	D4RLDenoising	—Unverified	0
Characterization of Efficient Influence Function for Off-Policy Evaluation Under Optimal Policies	May 20, 2025	counterfactualOff-policy evaluation	—Unverified	0
Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion	May 2, 2025	Computational EfficiencyOff-policy evaluation	—Unverified	0
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects	May 2, 2025	ImputationOff-policy evaluation	CodeCode Available	0
Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding	Apr 1, 2025	Decision MakingOff-policy evaluation	—Unverified	0
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective	Feb 17, 2025	Bayesian Optimizationmodel	—Unverified	0
Off-Policy Evaluation for Recommendations with Missing-Not-At-Random Rewards	Feb 13, 2025	Off-policy evaluationPosition	—Unverified	0
Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol	Feb 11, 2025	Model SelectionOff-policy evaluation	—Unverified	0
Off-policy Evaluation for Payments at Adyen	Jan 15, 2025	BenchmarkingDecision Making	—Unverified	0
Off-Policy Evaluation and Counterfactual Methods in Dynamic Auction Environments	Jan 9, 2025	counterfactualDecision Making	—Unverified	0
CANDOR: Counterfactual ANnotated DOubly Robust Off-Policy Evaluation	Dec 11, 2024	counterfactualOff-policy evaluation	—Unverified	0
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning	Dec 8, 2024	Off-policy evaluation	CodeCode Available	0
Concept-driven Off Policy Evaluation	Nov 28, 2024	Off-policy evaluation	—Unverified	0
Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment Effect	Nov 21, 2024	Causal InferenceOff-policy evaluation	—Unverified	0
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified	0
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	0
Primal-Dual Spectral Representation for Off-policy Evaluation	Oct 23, 2024	Off-policy evaluationReinforcement Learning (RL)	—Unverified	0
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation	Oct 3, 2024	Autonomous DrivingOff-policy evaluation	CodeCode Available	0
Development and Validation of Heparin Dosing Policies Using an Offline Reinforcement Learning Algorithm	Sep 24, 2024	Offline RLOff-policy evaluation	—Unverified	0
Designing an Interpretable Interface for Contextual Bandits	Sep 23, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Limit Order Book Simulation and Trade Evaluation with K-Nearest-Neighbor Resampling	Sep 10, 2024	Off-policy evaluation	—Unverified	0
IntOPE: Off-Policy Evaluation in the Presence of Interference	Aug 24, 2024	Off-policy evaluationRecommendation Systems	—Unverified	0
Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits	Aug 20, 2024	Off-policy evaluationRecommendation Systems	—Unverified	0
Empowering Clinicians with Medical Decision Transformers: A Framework for Sepsis Treatment	Jul 28, 2024	Off-policy evaluationreinforcement-learning	—Unverified	0
Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences	Jul 25, 2024	Off-policy evaluation	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 6Next →

No leaderboard results yet.