Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1262 papers

Title	Date	Tasks	Status
The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits	Sep 6, 2023	Multi-Armed Bandits	—Unverified
Are sample means in multi-armed bandits positively or negatively biased?	May 27, 2019	Multi-Armed BanditsSelection bias	—Unverified
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
The Epoch-Greedy Algorithm for Multi-armed Bandits with Side Information	Dec 1, 2007	Multi-Armed Bandits	—Unverified
The Externalities of Exploration and How Data Diversity Helps Exploitation	Jun 1, 2018	DiversityMulti-Armed Bandits	—Unverified
The K-Nearest Neighbour UCB algorithm for multi-armed bandits with covariates	Mar 1, 2018	Multi-Armed Bandits	—Unverified
The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player Multi-Armed Bandits with no Communication	Feb 19, 2022	Multi-Armed Bandits	—Unverified
The Pareto Frontier of model selection for general Contextual Bandits	Oct 25, 2021	Model SelectionMulti-Armed Bandits	—Unverified
The Price of Differential Privacy For Online Learning	Jan 27, 2017	Multi-Armed Bandits	—Unverified
Thompson Sampling for Budgeted Multi-armed Bandits	May 1, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson Sampling Algorithms for Cascading Bandits	Oct 2, 2018	Efficient ExplorationMulti-Armed Bandits	—Unverified
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study	Nov 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits	Feb 13, 2024	Multi-Armed Bandits	—Unverified
Tight Gap-Dependent Memory-Regret Trade-Off for Single-Pass Streaming Stochastic Multi-Armed Bandits	Mar 4, 2025	Multi-Armed Bandits	—Unverified
Tight Lower Bounds for Combinatorial Multi-Armed Bandits	Feb 13, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Tight Regret Bounds for Infinite-armed Linear Contextual Bandits	May 4, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Top-K Ranking Deep Contextual Bandits for Information Selection Systems	Jan 28, 2022	Multi-Armed Bandits	—Unverified
To update or not to update? Delayed Nonparametric Bandits with Randomized Allocation	May 26, 2020	Multi-Armed Bandits	—Unverified
Towards Distribution-Free Multi-Armed Bandits with Combinatorial Strategies	Jul 20, 2013	Multi-Armed Bandits	—Unverified
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified
Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making	Apr 12, 2025	Decision MakingDecision Making Under Uncertainty	—Unverified
Towards Optimal Algorithms for Multi-Player Bandits without Collision Sensing Information	Mar 24, 2021	Multi-Armed Bandits	—Unverified
Towards Robust Off-Policy Evaluation via Human Inputs	Sep 18, 2022	Multi-Armed BanditsOff-policy evaluation	—Unverified
Towards Soft Fairness in Restless Multi-Armed Bandits	Jul 27, 2022	FairnessMulti-Armed Bandits	—Unverified
Towards Understanding the Benefit of Multitask Representation Learning in Decision Process	Mar 1, 2025	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Towards a Pretrained Model for Restless Bandits via Multi-arm Generalization	Oct 23, 2023	Multi-agent Reinforcement LearningMulti-Armed Bandits	—Unverified
Tracking Most Significant Shifts in Nonparametric Contextual Bandits	Jul 11, 2023	Multi-Armed Bandits	—Unverified
Tractable contextual bandits beyond realizability	Oct 25, 2020	Multi-Armed Bandits	—Unverified
Transfer in Sequential Multi-armed Bandits via Reward Samples	Mar 19, 2024	Multi-Armed Bandits	—Unverified
Transfer Learning for Contextual Multi-armed Bandits	Nov 22, 2022	Multi-Armed BanditsTransfer Learning	—Unverified
Transfer Learning in Bandits with Latent Continuity	Feb 4, 2021	Multi-Armed BanditsTransfer Learning	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Trend Detection based Regret Minimization for Bandit Problems	Sep 15, 2017	Multi-Armed Bandits	—Unverified
Trend-responsive User Segmentation Enabling Traceable Publishing Insights. A Case Study of a Real-world Large-scale News Recommendation System	Oct 28, 2019	Diversityglobal-optimization	—Unverified
Triply Robust Off-Policy Evaluation	Nov 13, 2019	Multi-Armed BanditsOff-policy evaluation	—Unverified
TS-UCB: Improving on Thompson Sampling With Little to No Additional Computation	Jun 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
UCB algorithms for multi-armed bandits: Precise regret and adaptive inference	Dec 9, 2024	Multi-Armed Bandits	—Unverified
Understanding Memory-Regret Trade-Off for Streaming Stochastic Multi-Armed Bandits	May 30, 2024	Multi-Armed Bandits	—Unverified
Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits	Aug 11, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Unifying Clustered and Non-stationary Bandits	Sep 5, 2020	Change DetectionClustering	—Unverified
uniINF: Best-of-Both-Worlds Algorithm for Parameter-Free Heavy-Tailed MABs	Oct 4, 2024	Multi-Armed BanditsScheduling	—Unverified
Unimodal Bandits: Regret Lower Bounds and Optimal Algorithms	May 20, 2014	Multi-Armed Bandits	—Unverified
Universal and data-adaptive algorithms for model selection in linear contextual bandits	Nov 8, 2021	DiversityModel Selection	—Unverified
Unreliable Multi-Armed Bandits: A Novel Approach to Recommendation Systems	Nov 14, 2019	Multi-Armed BanditsRecommendation Systems	—Unverified
Upper-Confidence-Bound Algorithms for Active Learning in Multi-Armed Bandits	Jul 16, 2015	Active LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 20 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified