Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–975 of 1262 papers

Title	Date	Tasks	Status
The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits	Sep 6, 2023	Multi-Armed Bandits	—Unverified
Are sample means in multi-armed bandits positively or negatively biased?	May 27, 2019	Multi-Armed BanditsSelection bias	—Unverified
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
The Epoch-Greedy Algorithm for Multi-armed Bandits with Side Information	Dec 1, 2007	Multi-Armed Bandits	—Unverified
The Externalities of Exploration and How Data Diversity Helps Exploitation	Jun 1, 2018	DiversityMulti-Armed Bandits	—Unverified
The K-Nearest Neighbour UCB algorithm for multi-armed bandits with covariates	Mar 1, 2018	Multi-Armed Bandits	—Unverified
The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player Multi-Armed Bandits with no Communication	Feb 19, 2022	Multi-Armed Bandits	—Unverified
The Pareto Frontier of model selection for general Contextual Bandits	Oct 25, 2021	Model SelectionMulti-Armed Bandits	—Unverified
The Price of Differential Privacy For Online Learning	Jan 27, 2017	Multi-Armed Bandits	—Unverified
Thompson Sampling for Budgeted Multi-armed Bandits	May 1, 2015	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson Sampling Algorithms for Cascading Bandits	Oct 2, 2018	Efficient ExplorationMulti-Armed Bandits	—Unverified
Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints	Nov 2, 2019	Bayesian OptimizationDecision Making	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study	Nov 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits	Feb 13, 2024	Multi-Armed Bandits	—Unverified
Tight Gap-Dependent Memory-Regret Trade-Off for Single-Pass Streaming Stochastic Multi-Armed Bandits	Mar 4, 2025	Multi-Armed Bandits	—Unverified
Tight Lower Bounds for Combinatorial Multi-Armed Bandits	Feb 13, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Tight Regret Bounds for Infinite-armed Linear Contextual Bandits	May 4, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Top-K Ranking Deep Contextual Bandits for Information Selection Systems	Jan 28, 2022	Multi-Armed Bandits	—Unverified
To update or not to update? Delayed Nonparametric Bandits with Randomized Allocation	May 26, 2020	Multi-Armed Bandits	—Unverified
Towards Distribution-Free Multi-Armed Bandits with Combinatorial Strategies	Jul 20, 2013	Multi-Armed Bandits	—Unverified
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified

Show:10 25 50

← PrevPage 39 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified