Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1262 papers

Title	Date	Tasks	Status
Contextual Bandits for Unbounded Context Distributions	Aug 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks	Jan 21, 2025	Adversarial AttackAll	—Unverified
Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning	Nov 22, 2022	Multi-Armed Bandits	—Unverified
Full Gradient Deep Reinforcement Learning for Average-Reward Criterion	Apr 7, 2023	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen	Nov 30, 2024	Multi-Armed Banditsregression	—Unverified
Hierarchical Optimistic Region Selection driven by Curiosity	Dec 1, 2012	Active LearningMulti-Armed Bandits	—Unverified
High-dimensional Linear Bandits with Knapsacks	Nov 2, 2023	Multi-Armed Bandits	—Unverified
High-dimensional Nonparametric Contextual Bandit Problem	May 20, 2025	Decision MakingMulti-Armed Bandits	—Unverified
High Probability Bound for Cross-Learning Contextual Bandits with Unknown Context Distributions	Oct 5, 2024	Multi-Armed Bandits	—Unverified
Encrypted Linear Contextual Bandit	Mar 17, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Honor Among Bandits: No-Regret Learning for Online Fair Division	Jul 1, 2024	FairnessMulti-Armed Bandits	—Unverified
Horde of Bandits using Gaussian Markov Random Fields	Mar 7, 2017	ClusteringMulti-Armed Bandits	—Unverified
How Does Variance Shape the Regret in Contextual Bandits?	Oct 16, 2024	Multi-Armed Bandits	—Unverified
Human-AI Learning Performance in Multi-Armed Bandits	Dec 21, 2018	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits with Continuous Actions: Smoothing, Zooming, and Adapting	Feb 5, 2019	Multi-Armed Bandits	—Unverified
Adapting to Misspecification in Contextual Bandits with Offline Regression Oracles	Feb 26, 2021	Multi-Armed Banditsregression	—Unverified
Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective	Oct 7, 2020	Active LearningMulti-Armed Bandits	—Unverified
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare	Jul 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Imitation-Regularized Offline Learning	Jan 15, 2019	counterfactualMulti-Armed Bandits	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information	Jan 12, 2021	Multi-Armed Bandits	—Unverified
Improved Algorithms for Adversarial Bandits with Unbounded Losses	Oct 3, 2023	Multi-Armed Bandits	—Unverified
Improved Algorithms for Misspecified Linear Markov Decision Processes	Sep 12, 2021	Multi-Armed Bandits	—Unverified
Improved Algorithms for Multi-period Multi-class Packing Problems with Bandit Feedback	Jan 31, 2023	ManagementMulti-Armed Bandits	—Unverified
Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms	Feb 27, 2023	Multi-Armed Bandits	—Unverified
Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs	Oct 4, 2022	Multi-Armed Bandits	—Unverified
Improved Offline Contextual Bandits with Second-Order Bounds: Betting and Freezing	Feb 15, 2025	Multi-Armed Bandits	—Unverified
A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit	Nov 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Improved Regret Bounds for Linear Bandits with Heavy-Tailed Rewards	Jun 5, 2025	Experimental DesignMulti-Armed Bandits	—Unverified
Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits	Jun 1, 2016	Multi-Armed Bandits	—Unverified
Improving Fairness in Adaptive Social Exergames via Shapley Bandits	Feb 18, 2023	FairnessMulti-Armed Bandits	—Unverified
Improving Offline Contextual Bandits with Distributional Robustness	Nov 13, 2020	counterfactualMulti-Armed Bandits	—Unverified
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivising Exploration and Recommendations for Contextual Bandits with Payments	Jan 22, 2020	Multi-Armed Bandits	—Unverified
Incentivized Exploration for Multi-Armed Bandits under Reward Drift	Nov 12, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Incentivized Exploration via Filtered Posterior Sampling	Feb 20, 2024	Multi-Armed Bandits	—Unverified
A Closer Look at Small-loss Bounds for Bandits with Graph Feedback	Feb 2, 2020	Multi-Armed Bandits	—Unverified
Contextual Bandits with Sparse Data in Web setting	May 6, 2021	ArticlesDimensionality Reduction	—Unverified
Instance-optimal PAC Algorithms for Contextual Bandits	Jul 5, 2022	Multi-Armed Bandits	—Unverified
Indexability and Rollout Policy for Multi-State Partially Observable Restless Bandits	Jul 30, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses	May 16, 2022	Multi-Armed Bandits	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
From Bandits to Experts: On the Value of Side-Observations	Dec 1, 2011	Multi-Armed Bandits	—Unverified
Individual Regret in Cooperative Stochastic Multi-Armed Bandits	Nov 10, 2024	Multi-Armed Bandits	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Inference for Batched Bandits	Feb 8, 2020	Multi-Armed Bandits	—Unverified
Contextual Causal Bayesian Optimisation	Jan 29, 2023	Bayesian OptimisationMulti-Armed Bandits	—Unverified
Confidence-Budget Matching for Sequential Budgeted Learning	Feb 5, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified

Show:10 25 50

← PrevPage 12 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified