Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1211–1220 of 1262 papers

Title	Date	Tasks	Status
Truncated LinUCB for Stochastic Linear Bandits	Feb 23, 2022	Multi-Armed Bandits	CodeCode Available
Adaptive Estimator Selection for Off-Policy Evaluation	Feb 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Practical Bayesian Learning of Neural Networks via Adaptive Optimisation Methods	Nov 8, 2018	Multi-Armed BanditsThompson Sampling	CodeCode Available
NeuroSep-CP-LCB: A Deep Learning-based Contextual Multi-armed Bandit Algorithm with Uncertainty Quantification for Early Sepsis Prediction	Mar 20, 2025	Conformal PredictionDecision Making	CodeCode Available
Heterogeneous Multi-player Multi-armed Bandits: Closing the Gap and Generalization	Oct 27, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available
A Survey on Contextual Multi-armed Bandits	Aug 13, 2015	Multi-Armed BanditsSurvey	CodeCode Available
Practical Calculation of Gittins Indices for Multi-armed Bandits	Sep 11, 2019	Multi-Armed Bandits	CodeCode Available
Stay With Me: Lifetime Maximization Through Heteroscedastic Linear Bandits With Reneging	Oct 29, 2018	Decision MakingMulti-Armed Bandits	CodeCode Available
A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits	Apr 16, 2023	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels	Aug 10, 2024	Knowledge TracingMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 122 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified