Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 265 papers

Title	Date	Tasks	Status
Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation	Oct 16, 2019	Density Ratio EstimationOff-policy evaluation	—Unverified
Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy	Apr 2, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits	Aug 20, 2024	Off-policy evaluationRecommendation Systems	—Unverified
Efficient Counterfactual Learning from Bandit Feedback	Sep 10, 2018	Causal Inferencecounterfactual	—Unverified
Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning	Jun 6, 2020	Off-policy evaluationreinforcement-learning	—Unverified
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning	Sep 12, 2019	Off-policy evaluationreinforcement-learning	—Unverified
Efron-Stein PAC-Bayesian Inequalities	Sep 4, 2019	Generalization BoundsOff-policy evaluation	—Unverified
Emphatic TD Bellman Operator is a Contraction	Aug 14, 2015	Off-policy evaluation	—Unverified
Empowering Clinicians with Medical Decision Transformers: A Framework for Sepsis Treatment	Jul 28, 2024	Off-policy evaluationreinforcement-learning	—Unverified
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective	Feb 17, 2025	Bayesian Optimizationmodel	—Unverified
Expected Sarsa(λ) with Control Variate for Variance Reduction	Jun 25, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency	Feb 5, 2021	Off-policy evaluationreinforcement-learning	—Unverified
Generalized Emphatic Temporal Difference Learning: Bias-Variance Analysis	Sep 17, 2015	Off-policy evaluation	—Unverified
Generalizing Off-Policy Evaluation From a Causal Perspective For Sequential Decision-Making	Jan 20, 2022	counterfactualDecision Making	—Unverified
HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare	Feb 18, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Hybrid Value Estimation for Off-policy Evaluation and Offline Reinforcement Learning	Jun 4, 2022	MuJoCoOff-policy evaluation	—Unverified
Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It	Apr 23, 2024	counterfactualDecision Making	—Unverified
Inference on Time Series Nonparametric Conditional Moment Restrictions Using General Sieves	Dec 31, 2022	Off-policy evaluationTime Series	—Unverified
Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm	Mar 17, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions	Feb 10, 2020	Off-policy evaluationreinforcement-learning	—Unverified
IntOPE: Off-Policy Evaluation in the Presence of Interference	Aug 24, 2024	Off-policy evaluationRecommendation Systems	—Unverified
Large-scale Validation of Counterfactual Learning Methods: A Test-Bed	Dec 1, 2016	counterfactualOff-policy evaluation	—Unverified
Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments	Apr 7, 2022	Off-policy evaluation	—Unverified
Limit Order Book Simulation and Trade Evaluation with K-Nearest-Neighbor Resampling	Sep 10, 2024	Off-policy evaluation	—Unverified
Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment Effect	Nov 21, 2024	Causal InferenceOff-policy evaluation	—Unverified
Loss Functions for Discrete Contextual Pricing with Observational Data	Nov 18, 2021	ManagementOff-policy evaluation	—Unverified
Marginalized Operators for Off-policy Reinforcement Learning	Mar 30, 2022	Off-policy evaluationreinforcement-learning	—Unverified
Markovian Interference in Experiments	Jun 6, 2022	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Methodology for Interpretable Reinforcement Learning for Optimizing Mechanical Ventilation	Apr 3, 2024	Off-policy evaluationreinforcement-learning	—Unverified
Minimax Value Interval for Off-Policy Evaluation and Policy Optimization	Feb 6, 2020	Efficient ExplorationOff-policy evaluation	—Unverified
Minimax Model Learning	Mar 2, 2021	modelModel-based Reinforcement Learning	—Unverified
Minimax Off-Policy Evaluation for Multi-Armed Bandits	Jan 19, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation	Feb 21, 2020	Off-policy evaluationReinforcement Learning	—Unverified
Minimax Weight and Q-Function Learning for Off-Policy Evaluation	Oct 28, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization	Oct 15, 2023	Multi-agent Reinforcement LearningOff-policy evaluation	—Unverified
Counterfactual Mean Embeddings	May 22, 2018	Causal Inferencecounterfactual	CodeCode Available
Counterfactual Off-Policy Evaluation with Gumbel-Max Structural Causal Models	May 14, 2019	counterfactualManagement	CodeCode Available
Cross-Validated Off-Policy Evaluation	May 24, 2024	Model SelectionOff-policy evaluation	CodeCode Available
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching	Dec 18, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Minimum Empirical Divergence for Sub-Gaussian Linear Bandits	Oct 31, 2024	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Batch Stationary Distribution Estimation	Mar 2, 2020	Off-policy evaluation	CodeCode Available
Model-Free and Model-Based Policy Evaluation when Causality is Uncertain	Apr 2, 2022	modelOff-policy evaluation	CodeCode Available
Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment Settings	Oct 29, 2020	Change Point DetectionOff-policy evaluation	CodeCode Available
Deeply-Debiased Off-Policy Interval Estimation	May 10, 2021	Off-policy evaluation	CodeCode Available
Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation	Jun 7, 2021	Off-policy evaluation	CodeCode Available
Control Variates for Slate Off-Policy Evaluation	Jun 15, 2021	Off-policy evaluationRecommendation Systems	CodeCode Available
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets	Feb 21, 2022	ManagementMulti-agent Reinforcement Learning	CodeCode Available
State Relevance for Off-Policy Evaluation	Sep 13, 2021	Off-policy evaluation	CodeCode Available
More Robust Doubly Robust Off-policy Evaluation	Feb 10, 2018	Multi-Armed BanditsOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.