Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1200 of 1262 papers

Title	Date	Tasks	Status
Finding All ε-Good Arms in Stochastic Bandits	Jun 16, 2020	AllMulti-Armed Bandits	CodeCode Available
Warm-starting Contextual Bandits: Robustly Combining Supervised and Bandit Feedback	Jan 2, 2019	Multi-Armed Bandits	CodeCode Available
Let's Get It Started: Fostering the Discoverability of New Releases on Deezer	Jan 5, 2024	Multi-Armed Bandits	CodeCode Available
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available
Myopic Bayesian Design of Experiments via Posterior Sampling and Probabilistic Programming	May 25, 2018	Bayesian InferenceMulti-Armed Bandits	CodeCode Available
Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits	Jul 23, 2021	Multi-Armed Bandits	CodeCode Available
Online Limited Memory Neural-Linear Bandits with Likelihood Matching	Feb 7, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available
Online Matching: A Real-time Bandit System for Large-scale Recommendations	Jul 29, 2023	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Thompson Sampling for Contextual Bandits with Linear Payoffs	Sep 15, 2012	Multi-Armed BanditsThompson Sampling	CodeCode Available
Semiparametric Contextual Bandits	Mar 12, 2018	Multi-Armed Bandits	CodeCode Available
Performance-Aware Self-Configurable Multi-Agent Networks: A Distributed Submodular Approach for Simultaneous Coordination and Network Design	Sep 2, 2024	Event DetectionMulti-Armed Bandits	CodeCode Available
Active Feature Selection for the Mutual Information Criterion	Dec 13, 2020	feature selectionMulti-Armed Bandits	CodeCode Available
Corralling a Band of Bandit Algorithms	Dec 19, 2016	Multi-Armed Bandits	CodeCode Available
Online Semi-Supervised Learning in Contextual Bandits with Episodic Reward	Sep 17, 2020	ClusteringDecision Making	CodeCode Available
Correlated Multi-armed Bandits with a Latent Random Source	Aug 17, 2018	Multi-Armed Bandits	CodeCode Available
A New Bandit Setting Balancing Information from State Evolution and Corrupted Context	Nov 16, 2020	Decision MakingEfficient Exploration	CodeCode Available
Linear Contextual Bandits with Hybrid Payoff: Revisited	Jun 14, 2024	DiversityMulti-Armed Bandits	CodeCode Available
Persistency of Excitation for Robustness of Neural Networks	Nov 4, 2019	Multi-Armed Bandits	CodeCode Available
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach	Aug 21, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms	Dec 1, 2020	Multi-Armed Bandits	CodeCode Available
Recurrent Neural-Linear Posterior Sampling for Nonstationary Contextual Bandits	Jul 9, 2020	Multi-Armed Bandits	CodeCode Available
A Convex Framework for Confounding Robust Inference	Sep 21, 2023	Model SelectionMulti-Armed Bandits	CodeCode Available
From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance	Feb 7, 2025	Multi-Armed Bandits	CodeCode Available
From Theory to Practice with RAVEN-UCB: Addressing Non-Stationarity in Multi-Armed Bandits through Variance Adaptation	Jun 3, 2025	Multi-Armed Bandits	CodeCode Available
Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits	Oct 25, 2023	Multi-Armed Bandits	CodeCode Available
Networked Restless Bandits with Positive Externalities	Dec 9, 2022	Multi-Armed Bandits	CodeCode Available
Locally Differentially Private (Contextual) Bandits Learning	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving Deep Learning	CodeCode Available
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Locally Private Nonparametric Contextual Multi-armed Bandits	Mar 11, 2025	Decision MakingMulti-Armed Bandits	CodeCode Available
Decentralized Cooperative Stochastic Bandits	Oct 10, 2018	Multi-Armed Bandits	CodeCode Available
Gaussian Gated Linear Networks	Jun 10, 2020	DenoisingDensity Estimation	CodeCode Available
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions	Oct 24, 2022	Metric LearningMulti-Armed Bandits	CodeCode Available
(Almost) Free Incentivized Exploration from Decentralized Learning Agents	Oct 27, 2021	Multi-Armed Bandits	CodeCode Available
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery	Feb 24, 2024	Multi-Armed Bandits	CodeCode Available
MABSplit: Faster Forest Training Using Multi-Armed Bandits	Dec 14, 2022	Feature ImportanceMulti-Armed Bandits	CodeCode Available
Risk-Aware Continuous Control with Neural Contextual Bandits	Dec 15, 2023	continuous-controlContinuous Control	CodeCode Available
Thompson Sampling for Linearly Constrained Bandits	Apr 20, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bayesian Optimisation over Multiple Continuous and Categorical Inputs	Jun 20, 2019	Bayesian OptimisationDiversity	CodeCode Available
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits	Dec 3, 2023	Causal InferenceMulti-Armed Bandits	CodeCode Available
Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints	Aug 24, 2023	DiversityMulti-Armed Bandits	CodeCode Available
Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning	Dec 1, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Bayesian Design Principles for Frequentist Sequential Learning	Oct 1, 2023	Multi-Armed Banditsreinforcement-learning	CodeCode Available
On Private Online Convex Optimization: Optimal Algorithms in _p-Geometry and High Dimensional Contextual Bandits	Jun 16, 2022	Multi-Armed Bandits	CodeCode Available
Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing	Feb 10, 2023	Change DetectionMulti-Armed Bandits	CodeCode Available
Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity	Apr 10, 2024	Decision MakingMeta Reinforcement Learning	CodeCode Available
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
Medoids in almost linear time via multi-armed bandits	Nov 2, 2017	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 24 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified