Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 1262 papers

Title	Date	Tasks	Status
Contextual Linear Bandits with Delay as Payoff	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Contextual Information-Directed Sampling	May 22, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Bandit Regret Scaling with the Effective Loss Range	May 15, 2017	Multi-Armed Bandits	—Unverified
A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization	Sep 13, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified
Contextual Combinatorial Multi-armed Bandits with Volatile Arms and Submodular Reward	Dec 1, 2018	Decision MakingMulti-Armed Bandits	—Unverified
BanditRank: Learning to Rank Using Contextual Bandits	Oct 23, 2019	Information RetrievalLearning-To-Rank	—Unverified
Contextual Combinatorial Conservative Bandits	Nov 26, 2019	Multi-Armed Bandits	—Unverified
Contextual Causal Bayesian Optimisation	Jan 29, 2023	Bayesian OptimisationMulti-Armed Bandits	—Unverified
BanditQ: Fair Bandits with Guaranteed Rewards	Apr 11, 2023	Multi-Armed Bandits	—Unverified
A Hierarchical Nearest Neighbour Approach to Contextual Bandits	Dec 14, 2023	Computational EfficiencyMulti-Armed Bandits	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Individual Regret in Cooperative Stochastic Multi-Armed Bandits	Nov 10, 2024	Multi-Armed Bandits	—Unverified
Individual Regret in Cooperative Nonstochastic Multi-Armed Bandits	Jul 7, 2019	Multi-Armed Bandits	—Unverified
Contextual bandits with surrogate losses: Margin bounds and efficient algorithms	Jun 28, 2018	Multi-Armed Banditsregression	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Indexability and Rollout Policy for Multi-State Partially Observable Restless Bandits	Jul 30, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Contextual Bandits with Stage-wise Constraints	Jan 15, 2024	Multi-Armed Bandits	—Unverified
A General Theory of the Stochastic Linear Bandit and Its Applications	Feb 12, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Inference for Batched Bandits	Feb 8, 2020	Multi-Armed Bandits	—Unverified
Adaptive Contract Design for Crowdsourcing Markets: Bandit Algorithms for Repeated Principal-Agent Problems	May 12, 2014	Multi-Armed Bandits	—Unverified
Contextual Bandits with Sparse Data in Web setting	May 6, 2021	ArticlesDimensionality Reduction	—Unverified

Show:10 25 50

← PrevPage 24 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified