SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 191–200 of 1262 papers

Title	Date	Tasks	Status
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
An Adaptive Method for Contextual Stochastic Multi-armed Bandits with Rewards Generated by a Linear Dynamical System	Jun 14, 2024	Multi-Armed Bandits	—Unverified
Linear Contextual Bandits with Hybrid Payoff: Revisited	Jun 14, 2024	DiversityMulti-Armed Bandits	CodeCode Available
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Asymptotically Optimal Regret for Black-Box Predict-then-Optimize	Jun 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified

Show:10 25 50

← PrevPage 20 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified