SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 1262 papers

Title	Date	Tasks	Status
Multi-Armed Bandits With Machine Learning-Generated Surrogate Rewards	Jun 20, 2025	Decision Making Under UncertaintyMulti-Armed Bandits	—Unverified
Adaptive Action Duration with Contextual Bandits for Deep Reinforcement Learning in Dynamic Environments	Jun 17, 2025	Atari GamesBoard Games	CodeCode Available
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified
A General Framework for Off-Policy Learning with Partially-Observed Reward	Jun 17, 2025	Multi-Armed Bandits	—Unverified
Stochastic Multi-Objective Multi-Armed Bandits: Regret Definition and Algorithm	Jun 16, 2025	Multi-Armed Bandits	—Unverified
Collaborative Min-Max Regret in Grouped Multi-Armed Bandits	Jun 12, 2025	Multi-Armed Bandits	—Unverified
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified
Improved Regret Bounds for Linear Bandits with Heavy-Tailed Rewards	Jun 5, 2025	Experimental DesignMulti-Armed Bandits	—Unverified
From Theory to Practice with RAVEN-UCB: Addressing Non-Stationarity in Multi-Armed Bandits through Variance Adaptation	Jun 3, 2025	Multi-Armed Bandits	CodeCode Available
VirnyFlow: A Design Space for Responsible Model Development	Jun 2, 2025	AutoMLBayesian Optimization	CodeCode Available
Quick-Draw Bandits: Quickly Optimizing in Nonstationary Environments with Extremely Many Arms	May 30, 2025	Multi-Armed Bandits	—Unverified
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents	May 29, 2025	Multi-Armed Bandits	—Unverified
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing	May 27, 2025	MarketingMulti-Armed Bandits	—Unverified
Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments	May 25, 2025	ClusteringMulti-Armed Bandits	—Unverified
Test-Time Scaling of Diffusion Models via Noise Trajectory Search	May 24, 2025	DenoisingImage Generation	CodeCode Available
KL-regularization Itself is Differentially Private in Bandits and RLHF	May 23, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype	May 22, 2025	Feature EngineeringLarge Language Model	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Optimal Best-Arm Identification under Fixed Confidence with Multiple Optima	May 21, 2025	Multi-Armed Bandits	—Unverified
Human in the Loop Adaptive Optimization for Improved Time Series Forecasting	May 21, 2025	Language ModelingLanguage Modelling	CodeCode Available
High-dimensional Nonparametric Contextual Bandit Problem	May 20, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis	May 19, 2025	AllMulti-Armed Bandits	—Unverified
Multi-Armed Bandits Meet Large Language Models	May 19, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Batched Nonparametric Bandits via k-Nearest Neighbor UCB	May 15, 2025	Decision MakingMarketing	—Unverified
Near Optimal Best Arm Identification for Clustered Bandits	May 15, 2025	ClusteringComputational Efficiency	—Unverified

Show:10 25 50

← PrevPage 1 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified