SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 1262 papers

Title	Date	Tasks	Status	Hype
Adaptive, Robust and Scalable Bayesian Filtering for Online Learning	May 12, 2025	Continual LearningMulti-Armed Bandits	—Unverified	0
Navigating the Rashomon Effect: How Personalization Can Help Adjust Interpretable Machine Learning Models to Individual Users	May 11, 2025	Additive modelsInterpretable Machine Learning	—Unverified	0
Adaptive Budgeted Multi-Armed Bandits for IoT with Dynamic Resource Constraints	May 5, 2025	Multi-Armed Bandits	—Unverified	0
Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms	Apr 29, 2025	Multi-Armed BanditsNavigate	—Unverified	0
Access Probability Optimization in RACH: A Multi-Armed Bandits Approach	Apr 18, 2025	Multi-Armed Bandits	—Unverified	0
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified	0
On the Problem of Best Arm Retention	Apr 16, 2025	Multi-Armed Bandits	—Unverified	0
Learning-Based User Association for MmWave Vehicular Networks With Kernelized Contextual Bandits	Apr 15, 2025	Multi-Armed Bandits	—Unverified	0
Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making	Apr 12, 2025	Decision MakingDecision Making Under Uncertainty	—Unverified	0
A Classification View on Meta Learning Bandits	Apr 6, 2025	ClassificationMeta-Learning	—Unverified	0
An Exploration-free Method for a Linear Stochastic Bandit Driven by a Linear Gaussian Dynamical System	Apr 4, 2025	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified	0
Antithetic Sampling for Top-k Shapley Identification	Apr 2, 2025	Multi-Armed Bandits	CodeCode Available	0
Efficient Near-Optimal Algorithm for Online Shortest Paths in Directed Acyclic Graphs with Bandit Feedback Against Adaptive Adversaries	Apr 1, 2025	Multi-Armed Bandits	—Unverified	0
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments	Mar 28, 2025	ManagementModel Selection	—Unverified	0
MultiScale Contextual Bandits for Long Term Objectives	Mar 22, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Sparse Additive Contextual Bandits: A Nonparametric Approach for Online Decision-making with High-dimensional Covariates	Mar 21, 2025	Decision MakingMulti-Armed Bandits	—Unverified	0
NeuroSep-CP-LCB: A Deep Learning-based Contextual Multi-armed Bandit Algorithm with Uncertainty Quantification for Early Sepsis Prediction	Mar 20, 2025	Conformal PredictionDecision Making	CodeCode Available	0
Sparse Nonparametric Contextual Bandits	Mar 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified	0
Performance-bounded Online Ensemble Learning Method Based on Multi-armed bandits and Its Applications in Real-time Safety Assessment	Mar 19, 2025	Ensemble LearningMulti-Armed Bandits	CodeCode Available	1
A New Benchmark for Online Learning with Budget-Balancing Constraints	Mar 19, 2025	Multi-Armed Bandits	—Unverified	0
Variance-Dependent Regret Lower Bounds for Contextual Bandits	Mar 15, 2025	Multi-Armed Bandits	—Unverified	0
Bi-Criteria Optimization for Combinatorial Bandits: Sublinear Regret and Constraint Violation under Bandit Feedback	Mar 15, 2025	Multi-Armed Bandits	—Unverified	0
Locally Private Nonparametric Contextual Multi-armed Bandits	Mar 11, 2025	Decision MakingMulti-Armed Bandits	CodeCode Available	0
Multiplayer Information Asymmetric Contextual Bandits	Mar 11, 2025	Multi-Armed Bandits	—Unverified	0
Cost-Aware Optimal Pairwise Pure Exploration	Mar 10, 2025	Multi-Armed Bandits	—Unverified	0

Show:10 25 50

← PrevPage 2 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified