Off-policy evaluation

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 265 papers

Title	Date	Tasks	Status
State Relevance for Off-Policy Evaluation	Sep 13, 2021	Off-policy evaluation	CodeCode Available
Off-Policy Evaluation and Learning for External Validity under a Covariate Shift	Feb 26, 2020	Off-policy evaluation	CodeCode Available
Counterfactual Evaluation of Peer-Review Assignment Policies	May 27, 2023	counterfactualOff-policy evaluation	CodeCode Available
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets	Feb 21, 2022	ManagementMulti-agent Reinforcement Learning	CodeCode Available
Safe Exploration for Optimizing Contextual Bandits	Feb 2, 2020	counterfactualInformation Retrieval	CodeCode Available
Off-policy Evaluation with Deeply-abstracted States	Jun 27, 2024	Off-policy evaluation	CodeCode Available
From Importance Sampling to Doubly Robust Policy Gradient	Oct 20, 2019	Off-policy evaluation	CodeCode Available
Future-Dependent Value-Based Off-Policy Evaluation in POMDPs	Jul 26, 2022	Off-policy evaluation	CodeCode Available
Off-Policy Evaluation for Action-Dependent Non-Stationary Environments	Jan 24, 2023	counterfactualCounterfactual Reasoning	CodeCode Available
On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-n Recommendation	Jul 27, 2023	Information RetrievalOff-policy evaluation	CodeCode Available
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation	Mar 2, 2023	continuous-controlContinuous Control	CodeCode Available
Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity	Nov 5, 2020	DiversityOff-policy evaluation	CodeCode Available
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning	Jul 21, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available
When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective	Nov 23, 2023	Large Language ModelMulti-Armed Bandits	CodeCode Available
Human Choice Prediction in Language-based Persuasion Games: Simulation-based Off-Policy Evaluation	May 17, 2023	Decision MakingOff-policy evaluation	CodeCode Available
Conformal Off-policy Prediction	Jun 14, 2022	Conformal PredictionOff-policy evaluation	CodeCode Available
On the Reuse Bias in Off-Policy Reinforcement Learning	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available
Importance Sampling Policy Evaluation with an Estimated Behavior Policy	Jun 4, 2018	Off-policy evaluation	CodeCode Available
Variational Latent Branching Model for Off-Policy Evaluation	Jan 28, 2023	modelOff-policy evaluation	CodeCode Available
Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation	Oct 3, 2024	Autonomous DrivingOff-policy evaluation	CodeCode Available
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
Strictly Batch Imitation Learning by Energy-based Distribution Matching	Jun 25, 2020	Imitation LearningOff-policy evaluation	CodeCode Available
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning	Jun 9, 2019	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies	May 29, 2024	Metric LearningOff-policy evaluation	CodeCode Available
K-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control	Jun 7, 2023	counterfactualOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 10 of 11Next →

No leaderboard results yet.