Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1262 papers

Title	Date	Tasks	Status
Nonparametric Contextual Bandits in Metric Spaces with Unknown Metric	Dec 1, 2019	Multi-Armed Bandits	—Unverified
Nonparametric Stochastic Contextual Bandits	Jan 5, 2018	General Classificationimage-classification	—Unverified
Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling	Oct 11, 2023	Multi-Armed Bandits	—Unverified
Adversarial Rewards in Universal Learning for Contextual Bandits	Feb 14, 2023	Multi-Armed Bandits	—Unverified
Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset	Nov 6, 2024	Continual LearningMulti-Armed Bandits	—Unverified
Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach	Feb 10, 2021	Multi-Armed Banditsreinforcement-learning	—Unverified
Nonstochastic Multi-Armed Bandits with Graph-Structured Feedback	Sep 30, 2014	Multi-Armed Bandits	—Unverified
Non-Stochastic Multi-Player Multi-Armed Bandits: Optimal Rate With Collision Information, Sublinear Without	Apr 28, 2019	Multi-Armed Bandits	—Unverified
No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization	May 10, 2024	Multi-Armed Bandits	—Unverified
No-Regret Learning for Fair Multi-Agent Social Welfare Optimization	May 31, 2024	FairnessMulti-Armed Bandits	—Unverified
Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration	Dec 19, 2023	Bayesian InferenceDecision Making	—Unverified
Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search	Jan 21, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments	May 25, 2025	ClusteringMulti-Armed Bandits	—Unverified
Offline Contextual Bandits for Wireless Network Optimization	Nov 11, 2021	Computational EfficiencyMulti-Armed Bandits	—Unverified
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation	Aug 21, 2020	ManagementMulti-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff	May 28, 2024	Density EstimationMulti-Armed Bandits	—Unverified
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified
Off-Policy Evaluation for Large Action Spaces via Policy Convolution	Oct 24, 2023	Multi-Armed BanditsOff-policy evaluation	—Unverified
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits	Sep 30, 2022	Multi-Armed Bandits	—Unverified
On conditional versus marginal bias in multi-armed bandits	Feb 19, 2020	Multi-Armed Bandits	—Unverified
On Differentially Private Federated Linear Contextual Bandits	Feb 27, 2023	Multi-Armed Bandits	—Unverified
On Finding the Largest Mean Among Many	Jun 17, 2013	Multi-Armed Bandits	—Unverified
On Interpolating Experts and Multi-Armed Bandits	Jul 14, 2023	Multi-Armed Bandits	—Unverified
On Kernelized Multi-armed Bandits	Apr 3, 2017	Multi-Armed Bandits	—Unverified
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
On Lai's Upper Confidence Bound in Multi-Armed Bandits	Oct 3, 2024	Multi-Armed Bandits	—Unverified
On Learning to Rank Long Sequences with Contextual Bandits	Jun 7, 2021	Learning-To-RankMulti-Armed Bandits	—Unverified
Online Algorithm for Unsupervised Sequential Selection with Contextual Information	Oct 23, 2020	Multi-Armed Bandits	—Unverified
Online Allocation and Pricing: Constant Regret via Bellman Inequalities	Jun 14, 2019	Multi-Armed Bandits	—Unverified
Online and Distribution-Free Robustness: Regression and Contextual Bandits with Huber Contamination	Oct 8, 2020	Adversarial RobustnessMulti-Armed Bandits	—Unverified
Online and Scalable Model Selection with Multi-Armed Bandits	Jan 25, 2021	BIG-bench Machine LearningModel Selection	—Unverified
Online certification of preference-based fairness for personalized recommender systems	Apr 29, 2021	FairnessMulti-Armed Bandits	—Unverified
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Generalizable Meta-Heuristic based on Temporal Estimation of Rewards for Large Scale Blackbox Optimization	Dec 17, 2018	Multi-Armed Bandits	—Unverified
Online Fair Division with Contextual Bandits	Aug 23, 2024	FairnessMulti-Armed Bandits	—Unverified
Online Fair Revenue Maximizing Cake Division with Non-Contiguous Pieces in Adversarial Bandits	Nov 29, 2021	FairnessMulti-Armed Bandits	—Unverified
Online Learning for Autonomous Management of Intent-based 6G Networks	Jul 25, 2024	Efficient ExplorationManagement	—Unverified
Online Learning for Cooperative Multi-Player Multi-Armed Bandits	Sep 7, 2021	Multi-Armed Bandits	—Unverified
Online Learning in Contextual Bandits using Gated Linear Networks	Feb 21, 2020	Multi-Armed Bandits	—Unverified
Online learning over a finite action set with limited switching	Mar 5, 2018	Multi-Armed Bandits	—Unverified
Online Learning under Adversarial Corruptions	Jan 1, 2021	Multi-Armed Bandits	—Unverified
Online Learning via the Differential Privacy Lens	Nov 27, 2017	Multi-Armed Bandits	—Unverified
Online Learning with an Unknown Fairness Metric	Feb 20, 2018	FairnessMulti-Armed Bandits	—Unverified
Online learning with Corrupted context: Corrupted Contextual Bandits	Jun 26, 2020	Multi-Armed Bandits	—Unverified
Online learning with feedback graphs and switching costs	Oct 23, 2018	Multi-Armed Bandits	—Unverified
Online Learning with Off-Policy Feedback	Jul 18, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Online Limited Memory Neural-Linear Bandits	Jan 1, 2021	Efficient ExplorationMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 14 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified