SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1031–1040 of 1262 papers

Title	Date	Tasks	Status
Transfer Learning with Partially Observable Offline Data via Causal Bounds	Aug 7, 2023	Multi-Armed BanditsTransfer Learning	—Unverified
Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback	May 2, 2024	Multi-Armed BanditsSequential Decision Making	—Unverified
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits	Feb 11, 2025	Computational EfficiencyMulti-Armed Bandits	—Unverified
Provably Optimal Algorithms for Generalized Linear Contextual Bandits	Feb 28, 2017	Multi-Armed BanditsNews Recommendation	—Unverified
Pure Exploration in Asynchronous Federated Bandits	Oct 17, 2023	Multi-Armed Bandits	—Unverified
Pure exploration in multi-armed bandits with low rank structure using oblivious sampler	Jun 28, 2023	Multi-Armed Bandits	—Unverified
Combinatorial Pure Exploration of Causal Bandits	Jun 16, 2022	Causal InferenceMulti-Armed Bandits	—Unverified
Pure Exploration under Mediators' Feedback	Aug 29, 2023	Decision MakingMulti-Armed Bandits	—Unverified
QoS-Aware Multi-Armed Bandits	Feb 28, 2017	Decision MakingMulti-Armed Bandits	—Unverified
Quantile Multi-Armed Bandits with 1-bit Feedback	Feb 10, 2025	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 104 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified