SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 1262 papers

Title	Date	Tasks	Status
Early Stopping in Contextual Bandits and Inferences	Feb 5, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards	Feb 4, 2025	Multi-Armed Bandits	—Unverified
Optimizing Online Advertising with Multi-Armed Bandits: Mitigating the Cold Start Problem under Auction Dynamics	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Nearly Tight Bounds for Exploration in Streaming Multi-armed Bandits with Known Optimality Gap	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Meta-Prompt Optimization for LLM-Based Sequential Decision Making	Feb 2, 2025	Bayesian OptimizationDecision Making	—Unverified
Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Solving Inverse Problem for Multi-armed Bandits via Convex Optimization	Jan 31, 2025	Multi-Armed Bandits	CodeCode Available
Multi-agent Multi-armed Bandit with Fully Heavy-tailed Dynamics	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Contextual Online Decision Making with Infinite-Dimensional Functional Regression	Jan 30, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Breaking the (1/Δ_2) Barrier: Better Batched Best Arm Identification with Adaptive Grids	Jan 29, 2025	Multi-Armed Bandits	—Unverified
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
HD-CB: The First Exploration of Hyperdimensional Computing for Contextual Bandits Problems	Jan 28, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections	Jan 27, 2025	Multi-Armed BanditsScheduling	—Unverified
Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy	Jan 24, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Optimal Multi-Objective Best Arm Identification with Fixed Confidence	Jan 23, 2025	Multi-Armed Bandits	—Unverified
Efficient Implementation of LinearUCB through Algorithmic Improvements and Vector Computing Acceleration for Embedded Learning Systems	Jan 22, 2025	Decision MakingEdge-computing	—Unverified
Heterogeneous Multi-Player Multi-Armed Bandits Robust To Adversarial Attacks	Jan 21, 2025	Adversarial AttackAll	—Unverified
Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness	Jan 20, 2025	FairnessMulti-Armed Bandits	—Unverified
Pairwise Elimination with Instance-Dependent Guarantees for Bandits with Cost Subsidy	Jan 17, 2025	Multi-Armed Bandits	—Unverified
Neural Risk-sensitive Satisficing in Contextual Bandits	Jan 15, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Differentially Private Kernelized Contextual Bandits	Jan 13, 2025	Multi-Armed Bandits	—Unverified
On The Statistical Complexity of Offline Decision-Making	Jan 10, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Finite-Horizon Single-Pull Restless Bandits: An Efficient Index Policy For Scarce Resource Allocation	Jan 10, 2025	Multi-Armed Bandits	—Unverified
An Instrumental Value for Data Production and its Application to Data Pricing	Dec 24, 2024	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 4 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified