Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 265 papers

Title	Date	Tasks	Status
Distributional Off-Policy Evaluation for Slate Recommendations	Aug 27, 2023	FairnessOff-policy evaluation	CodeCode Available
Distributional Off-policy Evaluation with Bellman Residual Minimization	Feb 2, 2024	Distributional Reinforcement LearningOff-policy evaluation	CodeCode Available
Robust Generalization despite Distribution Shift via Minimum Discriminating Information	Jun 8, 2021	Generalization BoundsOff-policy evaluation	CodeCode Available
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects	May 2, 2025	ImputationOff-policy evaluation	CodeCode Available
Robust Offline Reinforcement learning with Heavy-Tailed Rewards	Oct 28, 2023	Offline RLOff-policy evaluation	CodeCode Available
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes	Aug 22, 2019	Off-policy evaluationreinforcement-learning	CodeCode Available
Variational Latent Branching Model for Off-Policy Evaluation	Jan 28, 2023	modelOff-policy evaluation	CodeCode Available
Off-Policy Evaluation with Out-of-Sample Guarantees	Jan 20, 2023	Off-policy evaluationvalid	CodeCode Available
Counterfactual Learning with Multioutput Deep Kernels	Nov 20, 2022	counterfactualCounterfactual Inference	CodeCode Available
Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces	Aug 7, 2023	Off-policy evaluation	CodeCode Available
Doubly Robust Kernel Statistics for Testing Distributional Treatment Effects	Dec 9, 2022	Causal Inferencecounterfactual	CodeCode Available
Counterfactual Evaluation of Peer-Review Assignment Policies	May 27, 2023	counterfactualOff-policy evaluation	CodeCode Available
Doubly robust off-policy evaluation with shrinkage	Jul 22, 2019	Model SelectionMulti-Armed Bandits	CodeCode Available
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach	Feb 20, 2021	Model-based Reinforcement LearningOff-policy evaluation	CodeCode Available
Conformal Off-policy Prediction	Jun 14, 2022	Conformal PredictionOff-policy evaluation	CodeCode Available
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes	Mar 29, 2024	Off-policy evaluation	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
Adaptive Estimator Selection for Off-Policy Evaluation	Feb 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Off-Policy Evaluation and Learning for External Validity under a Covariate Shift	Feb 26, 2020	Off-policy evaluation	CodeCode Available
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-n Recommendation	Jul 27, 2023	Information RetrievalOff-policy evaluation	CodeCode Available
Strictly Batch Imitation Learning by Energy-based Distribution Matching	Jun 25, 2020	Imitation LearningOff-policy evaluation	CodeCode Available
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments	Jan 24, 2023	counterfactualCounterfactual Reasoning	CodeCode Available
Counterfactual-Augmented Importance Sampling for Semi-Offline Policy Evaluation	Oct 26, 2023	counterfactualOff-policy evaluation	CodeCode Available
On the Reuse Bias in Off-Policy Reinforcement Learning	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available
Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning	Dec 1, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Off-policy Evaluation with Deeply-abstracted States	Jun 27, 2024	Off-policy evaluation	CodeCode Available
From Importance Sampling to Doubly Robust Policy Gradient	Oct 20, 2019	Off-policy evaluation	CodeCode Available
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs	Jul 26, 2022	Off-policy evaluation	CodeCode Available
Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting	Jun 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation	Oct 3, 2024	Autonomous DrivingOff-policy evaluation	CodeCode Available
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation	Mar 2, 2023	continuous-controlContinuous Control	CodeCode Available
Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity	Nov 5, 2020	DiversityOff-policy evaluation	CodeCode Available
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning	Jul 21, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available
Supervised Off-Policy Ranking	Jul 3, 2021	Off-policy evaluation	CodeCode Available
Human Choice Prediction in Language-based Persuasion Games: Simulation-based Off-Policy Evaluation	May 17, 2023	Decision MakingOff-policy evaluation	CodeCode Available
Optimal and Adaptive Off-policy Evaluation in Contextual Bandits	Dec 4, 2016	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Balanced Off-Policy Evaluation for Personalized Pricing	Feb 24, 2023	Off-policy evaluation	CodeCode Available
Importance Sampling Policy Evaluation with an Estimated Behavior Policy	Jun 4, 2018	Off-policy evaluation	CodeCode Available
A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes	Nov 12, 2021	Off-policy evaluation	CodeCode Available
Semi-Parametric Efficient Policy Learning with Continuous Actions	May 24, 2019	Off-policy evaluation	CodeCode Available
Balanced off-policy evaluation in general action spaces	Jun 9, 2019	Binary Classificationcounterfactual	CodeCode Available
Off-policy evaluation for slate recommendation	May 16, 2016	Learning-To-RankOff-policy evaluation	CodeCode Available
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning	Jun 9, 2019	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies	May 29, 2024	Metric LearningOff-policy evaluation	CodeCode Available
K-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control	Jun 7, 2023	counterfactualOff-policy evaluation	CodeCode Available
Policy-Adaptive Estimator Selection for Off-Policy Evaluation	Nov 25, 2022	counterfactualOff-policy evaluation	CodeCode Available
Learning Action Embeddings for Off-Policy Evaluation	May 6, 2023	Off-policy evaluation	CodeCode Available
Off-policy Evaluation in Doubly Inhomogeneous Environments	Jun 14, 2023	Offline RLOff-policy evaluation	CodeCode Available
Leveraging Factored Action Spaces for Off-Policy Evaluation	Jul 13, 2023	counterfactualOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 5 of 6Next →

No leaderboard results yet.