Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 265 papers

Title	Date	Tasks	Status	Hype
Discovering an Aid Policy to Minimize Student Evasion Using Offline Reinforcement Learning	Apr 20, 2021	ClusteringDecision Making	—Unverified	0
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Benchmarks for Deep Off-Policy Evaluation	Mar 30, 2021	Benchmarkingcontinuous-control	CodeCode Available	1
Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm	Mar 17, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified	0
Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds	Mar 9, 2021	Off-policy evaluationOpen-Ended Question Answering	—Unverified	0
Minimax Model Learning	Mar 2, 2021	modelModel-based Reinforcement Learning	—Unverified	0
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach	Feb 20, 2021	Model-based Reinforcement LearningOff-policy evaluation	CodeCode Available	0
Off-policy Confidence Sequences	Feb 18, 2021	Off-policy evaluationvalid	—Unverified	0
Bootstrapping Fitted Q-Evaluation for Off-Policy Inference	Feb 6, 2021	Off-policy evaluation	—Unverified	0
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency	Feb 5, 2021	Off-policy evaluationreinforcement-learning	—Unverified	0
Minimax Off-Policy Evaluation for Multi-Armed Bandits	Jan 19, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint	Jan 6, 2021	Off-policy evaluationReinforcement Learning (RL)	—Unverified	0
Off-Policy Evaluation of Slate Policies under Bayes Risk	Jan 5, 2021	Off-policy evaluation	—Unverified	0
Practical Marginalized Importance Sampling with the Successor Representation	Jan 1, 2021	Deep Reinforcement LearningMuJoCo	—Unverified	0
Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies	Nov 29, 2020	Off-policy evaluationRecommendation Systems	—Unverified	0
Reliable Off-policy Evaluation for Reinforcement Learning	Nov 8, 2020	Decision MakingOff-policy evaluation	—Unverified	0
Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity	Nov 5, 2020	DiversityOff-policy evaluation	CodeCode Available	0
Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment Settings	Oct 29, 2020	Change Point DetectionOff-policy evaluation	CodeCode Available	0
Off-Policy Interval Estimation with Lipschitz Value Iteration	Oct 29, 2020	Decision MakingMedical Diagnosis	—Unverified	0
Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under Batch Update Policy	Oct 23, 2020	Off-policy evaluation	—Unverified	0
A Practical Guide of Off-Policy Evaluation for Bandit Problems	Oct 23, 2020	Off-policy evaluation	—Unverified	0
CoinDICE: Off-Policy Confidence Interval Estimation	Oct 22, 2020	Off-policy evaluationReinforcement Learning (RL)	—Unverified	0
Optimal Off-Policy Evaluation from Multiple Logging Policies	Oct 21, 2020	Off-policy evaluation	CodeCode Available	1
Deep Jump Q-Evaluation for Offline Policy Evaluation in Continuous Action Space	Sep 28, 2020	Off-policy evaluationQ-Learning	—Unverified	0
Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation	Aug 17, 2020	Off-policy evaluation	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 11Next →

No leaderboard results yet.