Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 1262 papers

Title	Date	Tasks	Status
Slowly Changing Adversarial Bandit Algorithms are Efficient for Discounted MDPs	May 18, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Small-loss bounds for online learning with partial information	Nov 9, 2017	Multi-Armed Bandits	—Unverified
Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness	May 25, 2023	FairnessMulti-Armed Bandits	—Unverified
SmartChoices: Augmenting Software with Learned Implementations	Apr 12, 2023	Multi-Armed BanditsPhilosophy	—Unverified
Smoothed Online Learning is as Easy as Statistical Learning	Feb 9, 2022	Learning TheoryMulti-Armed Bandits	—Unverified
Smooth Sequential Optimisation with Delayed Feedback	Jun 21, 2021	Multi-Armed Bandits	—Unverified
Social Learning in Multi Agent Multi Armed Bandits	Oct 4, 2019	Multi-Armed Bandits	—Unverified
Sparse Additive Contextual Bandits: A Nonparametric Approach for Online Decision-making with High-dimensional Covariates	Mar 21, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Sparsity, variance and curvature in multi-armed bandits	Nov 3, 2017	Generalization BoundsLearning Theory	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits	Jun 11, 2022	AllMulti-Armed Bandits	—Unverified
Stability Enforced Bandit Algorithms for Channel Selection in Remote State Estimation of Gauss-Markov Processes	May 20, 2022	channel selectionMulti-Armed Bandits	—Unverified
Stabilizing the Kumaraswamy Distribution	Oct 1, 2024	Link PredictionMulti-Armed Bandits	—Unverified
Stateful Offline Contextual Policy Evaluation and Learning	Oct 19, 2021	ManagementMulti-Armed Bandits	—Unverified
Statistical Inference with M-Estimators on Adaptively Collected Data	Apr 29, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits	Aug 28, 2020	Multi-Armed Bandits	—Unverified
Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits	Feb 21, 2024	Multi-Armed Bandits	—Unverified
Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond	Feb 18, 2023	Multi-Armed Bandits	—Unverified
Concentration bounds for temporal difference learning with linear function approximation: The case of batch data and uniform sampling	Jun 11, 2013	Multi-Armed BanditsNews Recommendation	—Unverified
Stochastic Bandits for Egalitarian Assignment	Oct 8, 2024	FairnessMulti-Armed Bandits	—Unverified
Stochastic Bandits with Linear Constraints	Jun 17, 2020	Multi-Armed Bandits	—Unverified
Stochastic Bandits with Vector Losses: Minimizing ^-Norm of Relative Losses	Oct 15, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Stochastic Contextual Bandits with Graph-based Contexts	May 2, 2023	Multi-Armed Bandits	—Unverified
Stochastic contextual bandits with graph feedback: from independence number to MAS number	Feb 12, 2024	Multi-Armed Bandits	—Unverified
Stochastic Contextual Bandits with Known Reward Functions	Apr 30, 2016	Decision MakingMulti-Armed Bandits	—Unverified
Stochastic Contextual Bandits with Long Horizon Rewards	Feb 2, 2023	Decision MakingLanguage Modeling	—Unverified
Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits	Dec 13, 2021	Multi-Armed Bandits	—Unverified
Stochastic Graph Bandit Learning with Side-Observations	Aug 29, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Stochastic Linear Contextual Bandits with Diverse Contexts	Mar 5, 2020	DiversityMulti-Armed Bandits	—Unverified
Stochastic Multi-armed Bandits in Constant Space	Dec 25, 2017	Multi-Armed Bandits	—Unverified
Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions	Jun 4, 2021	Multi-Armed Bandits	—Unverified
Achieving Fairness in Stochastic Multi-armed Bandit Problem	May 27, 2019	FairnessMulti-Armed Bandits	—Unverified
Stochastic Multi-Armed Bandits with Control Variates	May 9, 2021	Multi-Armed Bandits	—Unverified
Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by a Linear Dynamical System	Apr 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm	Jun 16, 2025	Multi-Armed Bandits	—Unverified
Stochastic Network Utility Maximization with Unknown Utilities: Multi-Armed Bandits Approach	Jun 17, 2020	Multi-Armed Bandits	—Unverified
Stochastic Neural Network with Kronecker Flow	Jun 10, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Strategic Linear Contextual Bandits	Jun 1, 2024	Multi-Armed BanditsRecommendation Systems	—Unverified
Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk	Apr 1, 2022	Multi-Armed Bandits	—Unverified
Streaming Algorithms for Stochastic Multi-armed Bandits	Dec 9, 2020	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified
Structured Linear Contextual Bandits: A Sharp and Geometric Smoothed Analysis	Feb 26, 2020	Multi-Armed Bandits	—Unverified
Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks	Apr 25, 2024	FairnessMulti-Armed Bandits	—Unverified
Structure Matters: Dynamic Policy Gradient	Nov 7, 2024	Multi-Armed Bandits	—Unverified
Sublinear Optimal Policy Value Estimation in Contextual Bandits	Dec 12, 2019	Multi-Armed Bandits	—Unverified
Surrogate Objectives for Batch Policy Optimization in One-step Decision Making	Dec 1, 2019	Decision MakingMulti-Armed Bandits	—Unverified
Survey Bandits with Regret Guarantees	Feb 23, 2020	Multi-Armed BanditsSurvey	—Unverified
Taking a hint: How to leverage loss predictors in contextual bandits?	Mar 4, 2020	Multi-Armed Bandits	—Unverified
Target Tracking for Contextual Bandits: Application to Demand Side Management	Jan 28, 2019	ManagementMulti-Armed Bandits	—Unverified
Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits	Sep 18, 2023	Dialogue Act ClassificationMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 19 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified