Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1262 papers

Title	Date	Tasks	Status
Access Probability Optimization in RACH: A Multi-Armed Bandits Approach	Apr 18, 2025	Multi-Armed Bandits	—Unverified
A Bandit Approach to Sequential Experimental Design with False Discovery Control	Dec 1, 2018	Drug DiscoveryExperimental Design	—Unverified
Coordinated Attacks against Contextual Bandits: Fundamental Limits and Defense Mechanisms	Jan 30, 2022	Collaborative FilteringMulti-Armed Bandits	—Unverified
Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to Adversarial Corruptions	Jun 8, 2021	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified
Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms	Jul 21, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Cooperative Multi-agent Bandits: Distributed Algorithms with Optimal Individual Regret and Constant Communication Costs	Aug 8, 2023	Multi-Armed Bandits	—Unverified
Convex Hull Monte-Carlo Tree Search	Mar 9, 2020	Multi-Armed Bandits	—Unverified
Bandits Warm-up Cold Recommender Systems	Jul 10, 2014	Multi-Armed BanditsRecommendation Systems	—Unverified
Algorithms for multi-armed bandit problems	Feb 25, 2014	Multi-Armed Bandits	—Unverified
Continuous-Time Multi-Armed Bandits with Controlled Restarts	Jun 30, 2020	Multi-Armed Bandits	—Unverified
Continuous K-Max Bandits	Feb 19, 2025	Distributed ComputingMulti-Armed Bandits	—Unverified
Bandit Social Learning: Exploration under Myopic Behavior	Feb 15, 2023	Multi-Armed Bandits	—Unverified
Context Uncertainty in Contextual Bandits with Applications to Recommender Systems	Feb 1, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making	Mar 22, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Bandits meet Computer Architecture: Designing a Smartly-allocated Cache	Jan 31, 2016	Multi-Armed Bandits	—Unverified
Algorithms for Differentially Private Multi-Armed Bandits	Nov 27, 2015	Multi-Armed Bandits	—Unverified
Contextual Pandora's Box	May 26, 2022	Multi-Armed BanditsStochastic Optimization	—Unverified
Contextual Online Decision Making with Infinite-Dimensional Functional Regression	Jan 30, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Bandits for Learning to Explain from Explanations	Feb 7, 2021	Gaussian ProcessesMulti-Armed Bandits	—Unverified
Contextual Multinomial Logit Bandits with General Value Functions	Feb 12, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Bandits Don’t Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits	Nov 1, 2021	Machine TranslationMulti-Armed Bandits	—Unverified
A KL-LUCB algorithm for Large-Scale Crowdsourcing	Dec 1, 2017	Multi-Armed Bandits	—Unverified
Contextual Multi-Armed Bandits for Causal Marketing	Oct 2, 2018	Causal Inferencecounterfactual	—Unverified
Contextual memory bandit for pro-active dialog engagement	Jan 1, 2018	Multi-Armed Bandits	—Unverified
Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits	Oct 13, 2021	Machine TranslationMulti-Armed Bandits	—Unverified
Contextual Linear Bandits with Delay as Payoff	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Contextual Information-Directed Sampling	May 22, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Bandit Regret Scaling with the Effective Loss Range	May 15, 2017	Multi-Armed Bandits	—Unverified
A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization	Sep 13, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified
Contextual Combinatorial Multi-armed Bandits with Volatile Arms and Submodular Reward	Dec 1, 2018	Decision MakingMulti-Armed Bandits	—Unverified
BanditRank: Learning to Rank Using Contextual Bandits	Oct 23, 2019	Information RetrievalLearning-To-Rank	—Unverified
Contextual Combinatorial Conservative Bandits	Nov 26, 2019	Multi-Armed Bandits	—Unverified
Contextual Causal Bayesian Optimisation	Jan 29, 2023	Bayesian OptimisationMulti-Armed Bandits	—Unverified
BanditQ: Fair Bandits with Guaranteed Rewards	Apr 11, 2023	Multi-Armed Bandits	—Unverified
A Hierarchical Nearest Neighbour Approach to Contextual Bandits	Dec 14, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Individual Regret in Cooperative Stochastic Multi-Armed Bandits	Nov 10, 2024	Multi-Armed Bandits	—Unverified
Individual Regret in Cooperative Nonstochastic Multi-Armed Bandits	Jul 7, 2019	Multi-Armed Bandits	—Unverified
Contextual bandits with surrogate losses: Margin bounds and efficient algorithms	Jun 28, 2018	Multi-Armed Banditsregression	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Indexability and Rollout Policy for Multi-State Partially Observable Restless Bandits	Jul 30, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Contextual Bandits with Stage-wise Constraints	Jan 15, 2024	Multi-Armed Bandits	—Unverified
A General Theory of the Stochastic Linear Bandit and Its Applications	Feb 12, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Inference for Batched Bandits	Feb 8, 2020	Multi-Armed Bandits	—Unverified
Adaptive Contract Design for Crowdsourcing Markets: Bandit Algorithms for Repeated Principal-Agent Problems	May 12, 2014	Multi-Armed Bandits	—Unverified
Contextual Bandits with Sparse Data in Web setting	May 6, 2021	ArticlesDimensionality Reduction	—Unverified

Show:10 25 50

← PrevPage 12 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified