SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–910 of 1262 papers

Title	Date	Tasks	Status
Nonstochastic Multi-Armed Bandits with Graph-Structured Feedback	Sep 30, 2014	Multi-Armed Bandits	—Unverified
Non-Stochastic Multi-Player Multi-Armed Bandits: Optimal Rate With Collision Information, Sublinear Without	Apr 28, 2019	Multi-Armed Bandits	—Unverified
No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization	May 10, 2024	Multi-Armed Bandits	—Unverified
No-Regret Learning for Fair Multi-Agent Social Welfare Optimization	May 31, 2024	FairnessMulti-Armed Bandits	—Unverified
Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration	Dec 19, 2023	Bayesian InferenceDecision Making	—Unverified
Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search	Jan 21, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments	May 25, 2025	ClusteringMulti-Armed Bandits	—Unverified
Offline Contextual Bandits for Wireless Network Optimization	Nov 11, 2021	Computational EfficiencyMulti-Armed Bandits	—Unverified
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation	Aug 21, 2020	ManagementMulti-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 91 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified