SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 1262 papers

Title	Date	Tasks	Status
Towards Understanding the Benefit of Multitask Representation Learning in Decision Process	Mar 1, 2025	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates	Mar 1, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Functional multi-armed bandit and the best function identification problems	Mar 1, 2025	Multi-Armed Bandits	—Unverified
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
Transfer Learning in Latent Contextual Bandits with Covariate Shift Through Causal Transportability	Feb 27, 2025	Causal InferenceMulti-Armed Bandits	CodeCode Available
Heterogeneous Multi-Agent Bandits with Parsimonious Hints	Feb 22, 2025	4kMulti-Armed Bandits	—Unverified
Multi-agent Multi-armed Bandits with Minimum Reward Guarantee Fairness	Feb 21, 2025	FairnessMulti-Armed Bandits	CodeCode Available
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling	Feb 20, 2025	Multi-Armed BanditsThompson Sampling	—Unverified
Continuous K-Max Bandits	Feb 19, 2025	Distributed ComputingMulti-Armed Bandits	—Unverified
Efficient and Optimal Policy Gradient Algorithm for Corrupted Multi-armed Bandits	Feb 19, 2025	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 10 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified