SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 1262 papers

Title	Date	Tasks	Status
Model selection for behavioral learning data and applications to contextual bandits	Feb 18, 2025	Model SelectionMulti-Armed Bandits	—Unverified
Near-Optimal Private Learning in Linear Contextual Bandits	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Contextual Linear Bandits with Delay as Payoff	Feb 18, 2025	Multi-Armed Bandits	—Unverified
Improved Offline Contextual Bandits with Second-Order Bounds: Betting and Freezing	Feb 15, 2025	Multi-Armed Bandits	—Unverified
Contextual bandits with entropy-based human feedback	Feb 12, 2025	Multi-Armed Bandits	CodeCode Available
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits	Feb 11, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Heterogeneous Multi-agent Multi-armed Bandits on Stochastic Block Models	Feb 11, 2025	Multi-Armed BanditsStochastic Block Model	—Unverified
Quantile Multi-Armed Bandits with 1-bit Feedback	Feb 10, 2025	Multi-Armed Bandits	—Unverified
Towards a Sharp Analysis of Offline Policy Learning for f-Divergence-Regularized Contextual Bandits	Feb 9, 2025	Multi-Armed Bandits	—Unverified
Nearly Tight Bounds for Cross-Learning Contextual Bandits with Graphical Feedback	Feb 7, 2025	Multi-Armed Bandits	—Unverified
From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance	Feb 7, 2025	Multi-Armed Bandits	CodeCode Available
Early Stopping in Contextual Bandits and Inferences	Feb 5, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Catoni Contextual Bandits are Robust to Heavy-tailed Rewards	Feb 4, 2025	Multi-Armed Bandits	—Unverified
Optimizing Online Advertising with Multi-Armed Bandits: Mitigating the Cold Start Problem under Auction Dynamics	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Nearly Tight Bounds for Exploration in Streaming Multi-armed Bandits with Known Optimality Gap	Feb 3, 2025	Multi-Armed Bandits	—Unverified
Meta-Prompt Optimization for LLM-Based Sequential Decision Making	Feb 2, 2025	Bayesian OptimizationDecision Making	—Unverified
Multi-agent Multi-armed Bandit with Fully Heavy-tailed Dynamics	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Solving Inverse Problem for Multi-armed Bandits via Convex Optimization	Jan 31, 2025	Multi-Armed Bandits	CodeCode Available
Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Contextual Online Decision Making with Infinite-Dimensional Functional Regression	Jan 30, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Breaking the (1/Δ_2) Barrier: Better Batched Best Arm Identification with Adaptive Grids	Jan 29, 2025	Multi-Armed Bandits	—Unverified
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
HD-CB: The First Exploration of Hyperdimensional Computing for Contextual Bandits Problems	Jan 28, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections	Jan 27, 2025	Multi-Armed BanditsScheduling	—Unverified

Show:10 25 50

← PrevPage 5 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified