Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 265 papers

Title	Date	Tasks	Status	Hype
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Evaluating the Robustness of Off-Policy Evaluation	Aug 31, 2021	Off-policy evaluationRecommendation Systems	CodeCode Available	1
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation	Apr 19, 2022	Offline RLOff-policy evaluation	CodeCode Available	1
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
BCORLE(): An Offline Reinforcement Learning and Evaluation Framework for Coupons Allocation in E-commerce Market	Dec 1, 2021	Off-policy evaluationreinforcement-learning	CodeCode Available	1
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation	Nov 30, 2023	Benchmarkingcounterfactual	CodeCode Available	1
Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning	Feb 19, 2022	Off-policy evaluation	CodeCode Available	1
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation	Jun 24, 2021	Meta Reinforcement LearningOff-policy evaluation	CodeCode Available	1
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
Benchmarks for Deep Off-Policy Evaluation	Mar 30, 2021	Benchmarkingcontinuous-control	CodeCode Available	1
A Policy-Guided Imitation Approach for Offline Reinforcement Learning	Oct 15, 2022	D4RLOffline RL	CodeCode Available	1
Offline RL Without Off-Policy Evaluation	Jun 16, 2021	D4RLOffline RL	CodeCode Available	1
A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation	Jun 12, 2021	Deep Reinforcement LearningMuJoCo	CodeCode Available	1
Trajectory World Models for Heterogeneous Environments	Feb 3, 2025	DiversityModel Predictive Control	CodeCode Available	1
Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings	Jul 23, 2021	Computational EfficiencyDecision Making	CodeCode Available	1
Off-Policy Evaluation of Ranking Policies under Diverse User Behavior	Jun 26, 2023	Off-policy evaluation	CodeCode Available	1
SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation	Nov 30, 2023	Offline RLOff-policy evaluation	CodeCode Available	1
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation	Aug 17, 2020	Off-policy evaluation	CodeCode Available	1
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions	Jul 25, 2020	counterfactualNews Recommendation	CodeCode Available	1
Active Offline Policy Selection	Jun 18, 2021	Bayesian OptimizationOff-policy evaluation	CodeCode Available	1
Optimal Off-Policy Evaluation from Multiple Logging Policies	Oct 21, 2020	Off-policy evaluation	CodeCode Available	1
Bayesian Off-Policy Evaluation and Learning for Large Action Spaces	Feb 22, 2024	Computational EfficiencyOff-policy evaluation	—Unverified	0
Adaptive Trade-Offs in Off-Policy Learning	Oct 16, 2019	Off-policy evaluationreinforcement-learning	—Unverified	0
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified	0
Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation	Jul 6, 2024	Off-policy evaluation	—Unverified	0
An Instrumental Variable Approach to Confounded Off-Policy Evaluation	Dec 29, 2022	Decision MakingOff-policy evaluation	—Unverified	0
Bayesian Counterfactual Mean Embeddings and Off-Policy Evaluation	Nov 2, 2022	counterfactualOff-policy evaluation	—Unverified	0
Data-Driven Off-Policy Estimator Selection: An Application in User Marketing on An Online Content Delivery Service	Sep 17, 2021	Decision MakingMarketing	—Unverified	0
Accountable Off-Policy Evaluation via a Kernelized Bellman Statistics	Jan 1, 2020	Off-policy evaluation	—Unverified	0
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization	Apr 28, 2021	continuous-controlContinuous Control	—Unverified	0
Counterfactual Learning with General Data-generating Policies	Dec 4, 2022	counterfactualDecision Making	—Unverified	0
Data Poisoning Attacks on Off-Policy Policy Evaluation Methods	Apr 6, 2024	Data PoisoningOff-policy evaluation	—Unverified	0
Deep Jump Q-Evaluation for Offline Policy Evaluation in Continuous Action Space	Sep 28, 2020	Off-policy evaluationQ-Learning	—Unverified	0
A maximum-entropy approach to off-policy evaluation in average-reward MDPs	Jun 17, 2020	Off-policy evaluation	—Unverified	0
A Unified Off-Policy Evaluation Approach for General Value Function	Jul 6, 2021	Anomaly DetectionOff-policy evaluation	—Unverified	0
Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation	Sep 17, 2021	Decision MakingOffline RL	—Unverified	0
Combining Parametric and Nonparametric Models for Off-Policy Evaluation	May 14, 2019	Mixture-of-ExpertsOff-policy evaluation	—Unverified	0
A Fast Convergence Theory for Offline Decision Making	Jun 3, 2024	Decision MakingOffline RL	—Unverified	0
CoinDICE: Off-Policy Confidence Interval Estimation	Oct 22, 2020	Off-policy evaluationReinforcement Learning (RL)	—Unverified	0
Characterization of Efficient Influence Function for Off-Policy Evaluation Under Optimal Policies	May 20, 2025	counterfactualOff-policy evaluation	—Unverified	0
Concept-driven Off Policy Evaluation	Nov 28, 2024	Off-policy evaluation	—Unverified	0
Confidence Interval for Off-Policy Evaluation from Dependent Samples via Bandit Algorithm: Approach from Standardized Martingales	Jun 12, 2020	Off-policy evaluation	—Unverified	0
Confident Natural Policy Gradient for Local Planning in q_π-realizable Constrained MDPs	Jun 26, 2024	Off-policy evaluation	—Unverified	0
Automated Off-Policy Estimator Selection via Supervised Learning	Jun 26, 2024	counterfactualOff-policy evaluation	—Unverified	0
Conformal Off-Policy Evaluation in Markov Decision Processes	Apr 5, 2023	Conformal PredictionOff-policy evaluation	—Unverified	0
Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning	Jan 29, 2020	Off-policy evaluationreinforcement-learning	—Unverified	0
Conformal Off-Policy Prediction in Contextual Bandits	Jun 9, 2022	Conformal PredictionMulti-Armed Bandits	—Unverified	0
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning	Feb 11, 2020	Off-policy evaluationreinforcement-learning	—Unverified	0
Causality and Batch Reinforcement Learning: Complementary Approaches To Planning In Unknown Domains	Jun 3, 2020	Autonomous DrivingCausal Inference	—Unverified	0

Show:10 25 50

← PrevPage 1 of 6Next →

No leaderboard results yet.