Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–265 of 265 papers

Title	Date	Tasks	Status
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation	Feb 21, 2020	Off-policy evaluationReinforcement Learning	—Unverified
Minimax Weight and Q-Function Learning for Off-Policy Evaluation	Oct 28, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization	Oct 15, 2023	Multi-agent Reinforcement LearningOff-policy evaluation	—Unverified
Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol	Feb 11, 2025	Model SelectionOff-policy evaluation	—Unverified
More Efficient Off-Policy Evaluation through Regularized Targeted Learning	Dec 13, 2019	Causal InferenceOff-policy evaluation	—Unverified
More Robust Doubly Robust Off-policy Evaluation	Feb 10, 2018	Multi-Armed BanditsOff-policy evaluation	—Unverified
Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds	Mar 9, 2021	Off-policy evaluationOpen-Ended Question Answering	—Unverified
Offline Comparison of Ranking Functions using Randomized Data	Oct 11, 2018	Off-policy evaluation	—Unverified
Offline Policy Evaluation and Optimization under Confounding	Nov 29, 2022	Offline RLOff-policy evaluation	—Unverified
Offline Reinforcement Learning for Human-Guided Human-Machine Interaction with Private Information	Dec 23, 2022	Decision MakingOff-policy evaluation	—Unverified
Off-policy Confidence Sequences	Feb 18, 2021	Off-policy evaluationvalid	—Unverified
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified
Off-Policy Evaluation and Counterfactual Methods in Dynamic Auction Environments	Jan 9, 2025	counterfactualDecision Making	—Unverified
Off-Policy Evaluation and Learning for the Future under Non-Stationarity	Jun 25, 2025	Off-policy evaluation	—Unverified
Off-Policy Evaluation and Learning from Logged Bandit Feedback: Error Reduction via Surrogate Policy	Aug 1, 2018	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified

Show:10 25 50

← PrevPage 6 of 6Next →

No leaderboard results yet.