Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–925 of 1262 papers

Title	Date	Tasks	Status
Slowly Changing Adversarial Bandit Algorithms are Efficient for Discounted MDPs	May 18, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Small-loss bounds for online learning with partial information	Nov 9, 2017	Multi-Armed Bandits	—Unverified
Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness	May 25, 2023	FairnessMulti-Armed Bandits	—Unverified
SmartChoices: Augmenting Software with Learned Implementations	Apr 12, 2023	Multi-Armed BanditsPhilosophy	—Unverified
Smoothed Online Learning is as Easy as Statistical Learning	Feb 9, 2022	Learning TheoryMulti-Armed Bandits	—Unverified
Smooth Sequential Optimisation with Delayed Feedback	Jun 21, 2021	Multi-Armed Bandits	—Unverified
Social Learning in Multi Agent Multi Armed Bandits	Oct 4, 2019	Multi-Armed Bandits	—Unverified
Sparse Additive Contextual Bandits: A Nonparametric Approach for Online Decision-making with High-dimensional Covariates	Mar 21, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Sparsity, variance and curvature in multi-armed bandits	Nov 3, 2017	Generalization BoundsLearning Theory	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits	Jun 11, 2022	AllMulti-Armed Bandits	—Unverified
Stability Enforced Bandit Algorithms for Channel Selection in Remote State Estimation of Gauss-Markov Processes	May 20, 2022	channel selectionMulti-Armed Bandits	—Unverified
Stabilizing the Kumaraswamy Distribution	Oct 1, 2024	Link PredictionMulti-Armed Bandits	—Unverified
Stateful Offline Contextual Policy Evaluation and Learning	Oct 19, 2021	ManagementMulti-Armed Bandits	—Unverified
Statistical Inference with M-Estimators on Adaptively Collected Data	Apr 29, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits	Aug 28, 2020	Multi-Armed Bandits	—Unverified
Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits	Feb 21, 2024	Multi-Armed Bandits	—Unverified
Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond	Feb 18, 2023	Multi-Armed Bandits	—Unverified
Concentration bounds for temporal difference learning with linear function approximation: The case of batch data and uniform sampling	Jun 11, 2013	Multi-Armed BanditsNews Recommendation	—Unverified
Stochastic Bandits for Egalitarian Assignment	Oct 8, 2024	FairnessMulti-Armed Bandits	—Unverified
Stochastic Bandits with Linear Constraints	Jun 17, 2020	Multi-Armed Bandits	—Unverified
Stochastic Bandits with Vector Losses: Minimizing ^-Norm of Relative Losses	Oct 15, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Stochastic Contextual Bandits with Graph-based Contexts	May 2, 2023	Multi-Armed Bandits	—Unverified
Stochastic contextual bandits with graph feedback: from independence number to MAS number	Feb 12, 2024	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 37 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified