Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 265 papers

Title	Date	Tasks	Status
Generalizing Off-Policy Evaluation From a Causal Perspective For Sequential Decision-Making	Jan 20, 2022	counterfactualDecision Making	—Unverified
On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy Evaluation	Jan 17, 2022	Off-policy evaluation	—Unverified
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching	Dec 18, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Optimal discharge of patients from intensive care via a data-driven policy learning framework	Dec 17, 2021	ManagementOff-policy evaluation	—Unverified
Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning	Dec 1, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Weighted model estimation for offline model-based reinforcement learning	Dec 1, 2021	Density Ratio Estimationmodel	—Unverified
Loss Functions for Discrete Contextual Pricing with Observational Data	Nov 18, 2021	ManagementOff-policy evaluation	—Unverified
A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision Processes	Nov 12, 2021	Off-policy evaluation	CodeCode Available
SOPE: Spectrum of Off-Policy Estimators	Nov 6, 2021	Decision MakingOff-policy evaluation	CodeCode Available
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes	Oct 28, 2021	Causal InferenceManagement	CodeCode Available
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
Off-Policy Evaluation in Partially Observed Markov Decision Processes under Sequential Ignorability	Oct 24, 2021	Off-policy evaluation	—Unverified
Stateful Offline Contextual Policy Evaluation and Learning	Oct 19, 2021	ManagementMulti-Armed Bandits	—Unverified
Why Should I Trust You, Bellman? Evaluating the Bellman Objective with Off-Policy Data	Sep 29, 2021	Deep Reinforcement LearningOff-policy evaluation	—Unverified
A Spectral Approach to Off-Policy Evaluation for POMDPs	Sep 22, 2021	Causal IdentificationOff-policy evaluation	—Unverified
Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation	Sep 17, 2021	Decision MakingOffline RL	—Unverified
Data-Driven Off-Policy Estimator Selection: An Application in User Marketing on An Online Content Delivery Service	Sep 17, 2021	Decision MakingMarketing	—Unverified
State Relevance for Off-Policy Evaluation	Sep 13, 2021	Off-policy evaluation	CodeCode Available
Debiasing Samples from Online Learning Using Bootstrap	Jul 31, 2021	Off-policy evaluationThompson Sampling	—Unverified
Online Learning for Recommendations at Grubhub	Jul 15, 2021	Incremental LearningOff-policy evaluation	—Unverified
A Unified Off-Policy Evaluation Approach for General Value Function	Jul 6, 2021	Anomaly DetectionOff-policy evaluation	—Unverified
Supervised Off-Policy Ranking	Jul 3, 2021	Off-policy evaluation	CodeCode Available
Variance-Aware Off-Policy Evaluation with Linear Function Approximation	Jun 22, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Control Variates for Slate Off-Policy Evaluation	Jun 15, 2021	Off-policy evaluationRecommendation Systems	CodeCode Available
Robust Generalization despite Distribution Shift via Minimum Discriminating Information	Jun 8, 2021	Generalization BoundsOff-policy evaluation	CodeCode Available
Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation	Jun 7, 2021	Off-policy evaluation	CodeCode Available
Deeply-Debiased Off-Policy Interval Estimation	May 10, 2021	Off-policy evaluation	CodeCode Available
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization	Apr 28, 2021	continuous-controlContinuous Control	—Unverified
Universal Off-Policy Evaluation	Apr 26, 2021	counterfactualDecision Making	CodeCode Available
Discovering an Aid Policy to Minimize Student Evasion Using Offline Reinforcement Learning	Apr 20, 2021	ClusteringDecision Making	—Unverified
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm	Mar 17, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds	Mar 9, 2021	Off-policy evaluationOpen-Ended Question Answering	—Unverified
Minimax Model Learning	Mar 2, 2021	modelModel-based Reinforcement Learning	—Unverified
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach	Feb 20, 2021	Model-based Reinforcement LearningOff-policy evaluation	CodeCode Available
Off-policy Confidence Sequences	Feb 18, 2021	Off-policy evaluationvalid	—Unverified
Bootstrapping Fitted Q-Evaluation for Off-Policy Inference	Feb 6, 2021	Off-policy evaluation	—Unverified
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency	Feb 5, 2021	Off-policy evaluationreinforcement-learning	—Unverified
Minimax Off-Policy Evaluation for Multi-Armed Bandits	Jan 19, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint	Jan 6, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Off-Policy Evaluation of Slate Policies under Bayes Risk	Jan 5, 2021	Off-policy evaluation	—Unverified
Practical Marginalized Importance Sampling with the Successor Representation	Jan 1, 2021	Deep Reinforcement LearningMuJoCo	—Unverified
Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies	Nov 29, 2020	Off-policy evaluationRecommendation Systems	—Unverified
Reliable Off-policy Evaluation for Reinforcement Learning	Nov 8, 2020	Decision MakingOff-policy evaluation	—Unverified
Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity	Nov 5, 2020	DiversityOff-policy evaluation	CodeCode Available
Off-Policy Interval Estimation with Lipschitz Value Iteration	Oct 29, 2020	Decision MakingMedical Diagnosis	—Unverified
Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment Settings	Oct 29, 2020	Change Point DetectionOff-policy evaluation	CodeCode Available
A Practical Guide of Off-Policy Evaluation for Bandit Problems	Oct 23, 2020	Off-policy evaluation	—Unverified
Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under Batch Update Policy	Oct 23, 2020	Off-policy evaluation	—Unverified
CoinDICE: Off-Policy Confidence Interval Estimation	Oct 22, 2020	Off-policy evaluationReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.