Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 265 papers

Title	Date	Tasks	Status
Distributional Off-Policy Evaluation for Slate Recommendations	Aug 27, 2023	FairnessOff-policy evaluation	CodeCode Available
Distributional Off-policy Evaluation with Bellman Residual Minimization	Feb 2, 2024	Distributional Reinforcement LearningOff-policy evaluation	CodeCode Available
Robust Generalization despite Distribution Shift via Minimum Discriminating Information	Jun 8, 2021	Generalization BoundsOff-policy evaluation	CodeCode Available
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects	May 2, 2025	ImputationOff-policy evaluation	CodeCode Available
Robust Offline Reinforcement learning with Heavy-Tailed Rewards	Oct 28, 2023	Offline RLOff-policy evaluation	CodeCode Available
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes	Aug 22, 2019	Off-policy evaluationreinforcement-learning	CodeCode Available
Variational Latent Branching Model for Off-Policy Evaluation	Jan 28, 2023	modelOff-policy evaluation	CodeCode Available
Off-Policy Evaluation with Out-of-Sample Guarantees	Jan 20, 2023	Off-policy evaluationvalid	CodeCode Available
Counterfactual Learning with Multioutput Deep Kernels	Nov 20, 2022	counterfactualCounterfactual Inference	CodeCode Available
Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces	Aug 7, 2023	Off-policy evaluation	CodeCode Available
Doubly Robust Kernel Statistics for Testing Distributional Treatment Effects	Dec 9, 2022	Causal Inferencecounterfactual	CodeCode Available
Counterfactual Evaluation of Peer-Review Assignment Policies	May 27, 2023	counterfactualOff-policy evaluation	CodeCode Available
Doubly robust off-policy evaluation with shrinkage	Jul 22, 2019	Model SelectionMulti-Armed Bandits	CodeCode Available
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach	Feb 20, 2021	Model-based Reinforcement LearningOff-policy evaluation	CodeCode Available
Conformal Off-policy Prediction	Jun 14, 2022	Conformal PredictionOff-policy evaluation	CodeCode Available
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes	Mar 29, 2024	Off-policy evaluation	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
Adaptive Estimator Selection for Off-Policy Evaluation	Feb 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Off-Policy Evaluation and Learning for External Validity under a Covariate Shift	Feb 26, 2020	Off-policy evaluation	CodeCode Available
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-n Recommendation	Jul 27, 2023	Information RetrievalOff-policy evaluation	CodeCode Available
Strictly Batch Imitation Learning by Energy-based Distribution Matching	Jun 25, 2020	Imitation LearningOff-policy evaluation	CodeCode Available
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments	Jan 24, 2023	counterfactualCounterfactual Reasoning	CodeCode Available
Counterfactual-Augmented Importance Sampling for Semi-Offline Policy Evaluation	Oct 26, 2023	counterfactualOff-policy evaluation	CodeCode Available
On the Reuse Bias in Off-Policy Reinforcement Learning	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available

Show:10 25 50

← PrevPage 9 of 11Next →

No leaderboard results yet.