Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 926–950 of 1262 papers

Title	Date	Tasks	Status
Stochastic Contextual Bandits with Known Reward Functions	Apr 30, 2016	Decision MakingMulti-Armed Bandits	—Unverified
Stochastic Contextual Bandits with Long Horizon Rewards	Feb 2, 2023	Decision MakingLanguage Modeling	—Unverified
Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits	Dec 13, 2021	Multi-Armed Bandits	—Unverified
Stochastic Graph Bandit Learning with Side-Observations	Aug 29, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Stochastic Linear Contextual Bandits with Diverse Contexts	Mar 5, 2020	DiversityMulti-Armed Bandits	—Unverified
Stochastic Multi-armed Bandits in Constant Space	Dec 25, 2017	Multi-Armed Bandits	—Unverified
Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions	Jun 4, 2021	Multi-Armed Bandits	—Unverified
Achieving Fairness in Stochastic Multi-armed Bandit Problem	May 27, 2019	FairnessMulti-Armed Bandits	—Unverified
Stochastic Multi-Armed Bandits with Control Variates	May 9, 2021	Multi-Armed Bandits	—Unverified
Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by a Linear Dynamical System	Apr 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm	Jun 16, 2025	Multi-Armed Bandits	—Unverified
Stochastic Network Utility Maximization with Unknown Utilities: Multi-Armed Bandits Approach	Jun 17, 2020	Multi-Armed Bandits	—Unverified
Stochastic Neural Network with Kronecker Flow	Jun 10, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Strategic Linear Contextual Bandits	Jun 1, 2024	Multi-Armed BanditsRecommendation Systems	—Unverified
Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk	Apr 1, 2022	Multi-Armed Bandits	—Unverified
Streaming Algorithms for Stochastic Multi-armed Bandits	Dec 9, 2020	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified
Structured Linear Contextual Bandits: A Sharp and Geometric Smoothed Analysis	Feb 26, 2020	Multi-Armed Bandits	—Unverified
Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks	Apr 25, 2024	FairnessMulti-Armed Bandits	—Unverified
Structure Matters: Dynamic Policy Gradient	Nov 7, 2024	Multi-Armed Bandits	—Unverified
Sublinear Optimal Policy Value Estimation in Contextual Bandits	Dec 12, 2019	Multi-Armed Bandits	—Unverified
Surrogate Objectives for Batch Policy Optimization in One-step Decision Making	Dec 1, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Survey Bandits with Regret Guarantees	Feb 23, 2020	Multi-Armed BanditsSurvey	—Unverified
Taking a hint: How to leverage loss predictors in contextual bandits?	Mar 4, 2020	Multi-Armed Bandits	—Unverified
Target Tracking for Contextual Bandits: Application to Demand Side Management	Jan 28, 2019	ManagementMulti-Armed Bandits	—Unverified
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 38 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified