SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 791–800 of 1262 papers

Title	Date	Tasks	Status
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization	Dec 16, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Max-Utility Based Arm Selection Strategy For Sequential Query Recommendations	Aug 31, 2021	Multi-Armed Bandits	—Unverified
MBExplainer: Multilevel bandit-based explanations for downstream models with augmented graph embeddings	Nov 1, 2024	Graph ClassificationMulti-Armed Bandits	—Unverified
Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits	Nov 30, 2024	Multi-Armed Bandits	—Unverified
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Meta-learners' learning dynamics are unlike learners'	May 3, 2019	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandit Algorithms	Jul 5, 2023	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 80 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified