Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1176–1200 of 1262 papers

Title	Date	Tasks	Status
Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits	Oct 25, 2023	Multi-Armed Bandits	CodeCode Available
Networked Restless Bandits with Positive Externalities	Dec 9, 2022	Multi-Armed Bandits	CodeCode Available
Locally Differentially Private (Contextual) Bandits Learning	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving Deep Learning	CodeCode Available
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Locally Private Nonparametric Contextual Multi-armed Bandits	Mar 11, 2025	Decision MakingMulti-Armed Bandits	CodeCode Available
Decentralized Cooperative Stochastic Bandits	Oct 10, 2018	Multi-Armed Bandits	CodeCode Available
Gaussian Gated Linear Networks	Jun 10, 2020	DenoisingDensity Estimation	CodeCode Available
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions	Oct 24, 2022	Metric LearningMulti-Armed Bandits	CodeCode Available
(Almost) Free Incentivized Exploration from Decentralized Learning Agents	Oct 27, 2021	Multi-Armed Bandits	CodeCode Available
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery	Feb 24, 2024	Multi-Armed Bandits	CodeCode Available
MABSplit: Faster Forest Training Using Multi-Armed Bandits	Dec 14, 2022	Feature ImportanceMulti-Armed Bandits	CodeCode Available
Risk-Aware Continuous Control with Neural Contextual Bandits	Dec 15, 2023	continuous-controlContinuous Control	CodeCode Available
Thompson Sampling for Linearly Constrained Bandits	Apr 20, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available
Bayesian Optimisation over Multiple Continuous and Categorical Inputs	Jun 20, 2019	Bayesian OptimisationDiversity	CodeCode Available
Deep Bayesian Bandits Showdown: An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling	Feb 26, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits	Dec 3, 2023	Causal InferenceMulti-Armed Bandits	CodeCode Available
Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints	Aug 24, 2023	DiversityMulti-Armed Bandits	CodeCode Available
Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning	Dec 1, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Bayesian Design Principles for Frequentist Sequential Learning	Oct 1, 2023	Multi-Armed Banditsreinforcement-learning	CodeCode Available
On Private Online Convex Optimization: Optimal Algorithms in _p-Geometry and High Dimensional Contextual Bandits	Jun 16, 2022	Multi-Armed Bandits	CodeCode Available
Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing	Feb 10, 2023	Change DetectionMulti-Armed Bandits	CodeCode Available
Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity	Apr 10, 2024	Decision MakingMeta Reinforcement Learning	CodeCode Available
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
Medoids in almost linear time via multi-armed bandits	Nov 2, 2017	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 48 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified