Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 1262 papers

Title	Date	Tasks	Status
Contextual Linear Bandits with Delay as Payoff	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Model selection for behavioral learning data and applications to contextual bandits	Feb 18, 2025	Model SelectionMulti-Armed Bandits	—Unverified
Near-Optimal Private Learning in Linear Contextual Bandits	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Improved Offline Contextual Bandits with Second-Order Bounds: Betting and Freezing	Feb 15, 2025	Multi-Armed Bandits	—Unverified
Contextual bandits with entropy-based human feedback	Feb 12, 2025	Multi-Armed Bandits	CodeCode Available
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits	Feb 11, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Heterogeneous Multi-agent Multi-armed Bandits on Stochastic Block Models	Feb 11, 2025	Multi-Armed BanditsStochastic Block Model	—Unverified
Quantile Multi-Armed Bandits with 1-bit Feedback	Feb 10, 2025	Multi-Armed Bandits	—Unverified
Towards a Sharp Analysis of Offline Policy Learning for f-Divergence-Regularized Contextual Bandits	Feb 9, 2025	Multi-Armed Bandits	—Unverified
From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance	Feb 7, 2025	Multi-Armed Bandits	CodeCode Available
Nearly Tight Bounds for Cross-Learning Contextual Bandits with Graphical Feedback	Feb 7, 2025	Multi-Armed Bandits	—Unverified
Early Stopping in Contextual Bandits and Inferences	Feb 5, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards	Feb 4, 2025	Multi-Armed Bandits	—Unverified
Nearly Tight Bounds for Exploration in Streaming Multi-armed Bandits with Known Optimality Gap	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Optimizing Online Advertising with Multi-Armed Bandits: Mitigating the Cold Start Problem under Auction Dynamics	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Meta-Prompt Optimization for LLM-Based Sequential Decision Making	Feb 2, 2025	Bayesian OptimizationDecision Making	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Multi-agent Multi-armed Bandit with Fully Heavy-tailed Dynamics	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Solving Inverse Problem for Multi-armed Bandits via Convex Optimization	Jan 31, 2025	Multi-Armed Bandits	CodeCode Available
Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Contextual Online Decision Making with Infinite-Dimensional Functional Regression	Jan 30, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Breaking the (1/Δ_2) Barrier: Better Batched Best Arm Identification with Adaptive Grids	Jan 29, 2025	Multi-Armed Bandits	—Unverified
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
HD-CB: The First Exploration of Hyperdimensional Computing for Contextual Bandits Problems	Jan 28, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections	Jan 27, 2025	Multi-Armed BanditsScheduling	—Unverified
Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy	Jan 24, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Optimal Multi-Objective Best Arm Identification with Fixed Confidence	Jan 23, 2025	Multi-Armed Bandits	—Unverified
Efficient Implementation of LinearUCB through Algorithmic Improvements and Vector Computing Acceleration for Embedded Learning Systems	Jan 22, 2025	Decision MakingEdge-computing	—Unverified
Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks	Jan 21, 2025	Adversarial AttackAll	—Unverified
Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness	Jan 20, 2025	FairnessMulti-Armed Bandits	—Unverified
Pairwise Elimination with Instance-Dependent Guarantees for Bandits with Cost Subsidy	Jan 17, 2025	Multi-Armed Bandits	—Unverified
Neural Risk-sensitive Satisficing in Contextual Bandits	Jan 15, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Differentially Private Kernelized Contextual Bandits	Jan 13, 2025	Multi-Armed Bandits	—Unverified
Finite-Horizon Single-Pull Restless Bandits: An Efficient Index Policy For Scarce Resource Allocation	Jan 10, 2025	Multi-Armed Bandits	—Unverified
On The Statistical Complexity of Offline Decision-Making	Jan 10, 2025	Decision MakingMulti-Armed Bandits	—Unverified
An Instrumental Value for Data Production and its Application to Data Pricing	Dec 24, 2024	Decision MakingMulti-Armed Bandits	—Unverified
A Novel Approach to Balance Convenience and Nutrition in Meals With Long-Term Group Recommendations and Reasoning on Multimodal Recipes and its Implementation in BEACON	Dec 23, 2024	Multi-Armed BanditsNutrition	—Unverified
Lagrangian Index Policy for Restless Bandits with Average Reward	Dec 17, 2024	Multi-Armed Banditsreinforcement-learning	—Unverified
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization	Dec 16, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
An Optimistic Algorithm for Online Convex Optimization with Adversarial Constraints	Dec 11, 2024	Multi-Armed Bandits	—Unverified
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health	Dec 11, 2024	Multi-Armed Bandits	CodeCode Available
UCB algorithms for multi-armed bandits: Precise regret and adaptive inference	Dec 9, 2024	Multi-Armed Bandits	—Unverified
Conservative Contextual Bandits: Beyond Linear Representations	Dec 9, 2024	Multi-Armed BanditsSequential Decision Making	—Unverified
Coordinated Multi-Armed Bandits for Improved Spatial Reuse in Wi-Fi	Dec 4, 2024	Decision MakingFairness	—Unverified
Data Acquisition for Improving Model Fairness using Reinforcement Learning	Dec 4, 2024	Data ValuationFairness	—Unverified
Selective Reviews of Bandit Problems in AI via a Statistical View	Dec 3, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits	Nov 30, 2024	Multi-Armed Bandits	—Unverified
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen	Nov 30, 2024	Multi-Armed Banditsregression	—Unverified
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified
Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions	Nov 12, 2024	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 3 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified