Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1100 of 1262 papers

Title	Date	Tasks	Status
Towards Fundamental Limits of Multi-armed Bandits with Random Walk Feedback	Nov 3, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Rarely-switching linear bandits: optimization of causal effects for the real world	May 30, 2019	Causal InferenceMulti-Armed Bandits	—Unverified
Rate-Constrained Remote Contextual Bandits	Apr 26, 2022	MarketingMulti-Armed Bandits	—Unverified
Reciprocal Learning	Aug 12, 2024	Active LearningMulti-Armed Bandits	—Unverified
Recommenadation aided Caching using Combinatorial Multi-armed Bandits	Apr 30, 2024	Multi-Armed Bandits	—Unverified
Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals	Jun 12, 2023	Multi-Armed Bandits	CodeCode Available
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Incorporating Multi-armed Bandit with Local Search for MaxSAT	Nov 29, 2022	Multi-Armed Bandits	CodeCode Available
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Causal Contextual Bandits with Adaptive Context	May 28, 2024	Multi-Armed Bandits	CodeCode Available
Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits	Mar 1, 2023	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Adaptive Action Duration with Contextual Bandits for Deep Reinforcement Learning in Dynamic Environments	Jun 17, 2025	Atari GamesBoard Games	CodeCode Available
Causally Abstracted Multi-armed Bandits	Apr 26, 2024	Decision MakingMulti-Armed Bandits	CodeCode Available
Censored Semi-Bandits: A Framework for Resource Allocation with Censored Feedback	Sep 4, 2019	Multi-Armed Bandits	CodeCode Available
Online Learning for Function Placement in Serverless Computing	Oct 17, 2024	Multi-Armed Bandits	CodeCode Available
Safe and Adaptive Decision-Making for Optimization of Safety-Critical Systems: The ARTEO Algorithm	Nov 10, 2022	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles	Oct 21, 2022	Multi-Armed Banditsregression	CodeCode Available
Efficient Kernel UCB for Contextual Bandits	Feb 11, 2022	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Multi-Armed Bandits in Brain-Computer Interfaces	May 19, 2022	Multi-Armed Bandits	CodeCode Available
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction	Feb 3, 2024	MarketingMulti-Armed Bandits	CodeCode Available
Off-Policy Evaluation Using Information Borrowing and Context-Based Switching	Dec 18, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Infinite Action Contextual Bandits with Reusable Data Exhaust	Feb 16, 2023	Model SelectionMulti-Armed Bandits	CodeCode Available
Combinatorial Bandits under Strategic Manipulations	Feb 25, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Adapting multi-armed bandits policies to contextual bandits scenarios	Nov 11, 2018	Binary ClassificationClassification	CodeCode Available
Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit Problems	Aug 17, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Maximizing and Satisficing in Multi-armed Bandits with Graph Information	Aug 2, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available
Combinatorial Multi-armed Bandits for Resource Allocation	May 10, 2021	Multi-Armed Bandits	CodeCode Available
Empirical Likelihood for Contextual Bandits	Jun 7, 2019	Multi-Armed Bandits	CodeCode Available
Online SuBmodular + SuPermodular (BP) Maximization with Bandit Feedback	Jul 7, 2022	Computational EfficiencyMovie Recommendation	CodeCode Available
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning	Jun 9, 2019	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Introduction to Multi-Armed Bandits	Apr 15, 2019	Multi-Armed Bandits	CodeCode Available
Invariant Policy Learning: A Causal Perspective	Jun 1, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Equal Opportunity in Online Classification with Partial Feedback	Feb 6, 2019	ClassificationDecision Making Under Uncertainty	CodeCode Available
Inverse Contextual Bandits: Learning How Behavior Evolves over Time	Jul 13, 2021	BenchmarkingDecision Making	CodeCode Available
An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits	Nov 9, 2023	Causal InferenceExperimental Design	CodeCode Available
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents	Aug 6, 2024	Multi-Armed BanditsSensitivity	CodeCode Available
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks	Mar 9, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health	Dec 11, 2024	Multi-Armed Bandits	CodeCode Available
Estimation of Warfarin Dosage with Reinforcement Learning	Sep 15, 2021	Multi-Armed Banditsreinforcement-learning	CodeCode Available
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Model selection for contextual bandits	Jun 3, 2019	modelModel Selection	CodeCode Available
Best Arm Identification with Fixed Budget: A Large Deviation Perspective	Dec 19, 2023	Multi-Armed Bandits	CodeCode Available
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available
Optimal Learning for Structured Bandits	Jul 14, 2020	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available
Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits	Jun 3, 2023	Multi-Armed BanditsOpen-Ended Question Answering	CodeCode Available
Confidence Intervals for Policy Evaluation in Adaptive Experiments	Nov 7, 2019	Experimental DesignMulti-Armed Bandits	CodeCode Available
Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting	Jun 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 22 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified