Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1262 papers

Title	Date	Tasks	Status
Bounded Regret for Finitely Parameterized Multi-Armed Bandits	Mar 3, 2020	Multi-Armed Bandits	—Unverified
Boundary Crossing Probabilities for General Exponential Families	May 24, 2017	Multi-Armed Bandits	—Unverified
An Improved Relaxation for Oracle-Efficient Adversarial Contextual Bandits	Oct 29, 2023	Multi-Armed Bandits	—Unverified
Bootstrapping Upper Confidence Bound	Jun 12, 2019	Decision MakingMulti-Armed Bandits	—Unverified
An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System	Apr 4, 2025	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Active Search for Sparse Signals with Region Sensing	Dec 2, 2016	Bayesian OptimizationCompressive Sensing	—Unverified
Boltzmann Exploration Done Right	May 29, 2017	Decision MakingDecision Making Under Uncertainty	—Unverified
BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits	Jul 7, 2023	Decision MakingMulti-Armed Bandits	—Unverified
BISTRO: An Efficient Relaxation-Based Method for Contextual Bandits	Feb 6, 2016	Multi-Armed Bandits	—Unverified
Bi-Criteria Optimization for Combinatorial Bandits: Sublinear Regret and Constraint Violation under Bandit Feedback	Mar 15, 2025	Multi-Armed Bandits	—Unverified
A New Benchmark for Online Learning with Budget-Balancing Constraints	Mar 19, 2025	Multi-Armed Bandits	—Unverified
Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles	Feb 12, 2020	Multi-Armed Banditsregression	—Unverified
Beyond the Hazard Rate: More Perturbation Algorithms for Adversarial Multi-armed Bandits	Feb 17, 2017	Multi-Armed Bandits	—Unverified
Better Algorithms for Stochastic Bandits with Adversarial Corruptions	Feb 22, 2019	Multi-Armed Bandits	—Unverified
Best-of-Both-Worlds Linear Contextual Bandits	Dec 27, 2023	Multi-Armed Bandits	—Unverified
A New Algorithm for Non-stationary Contextual Bandits: Efficient, Optimal, and Parameter-free	Feb 3, 2019	Multi-Armed Bandits	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Active Search for High Recall: a Non-Stationary Extension of Thompson Sampling	Dec 27, 2017	Multi-Armed BanditsThompson Sampling	—Unverified
A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits	Jun 10, 2021	Multi-Armed Bandits	—Unverified
A Batch Sequential Halving Algorithm without Performance Degradation	Jun 1, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Best-of-Both-Worlds Algorithms for Linear Contextual Bandits	Dec 24, 2023	Multi-Armed Bandits	—Unverified
An Empirical Evaluation of Thompson Sampling	Dec 1, 2011	Multi-Armed BanditsThompson Sampling	—Unverified
Best Arm Identification under Additive Transfer Bandits	Dec 8, 2021	Multi-Armed BanditsTransfer Learning	—Unverified
Best Arm Identification in Stochastic Bandits: Beyond β-optimality	Jan 10, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 14 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified