SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–360 of 1262 papers

Title	Date	Tasks	Status
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems	Jul 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits and Imitation Learning via Preference-Based Active Queries	Jul 24, 2023	Imitation LearningMulti-Armed Bandits	—Unverified
Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms	Jul 21, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Decentralized Smart Charging of Large-Scale EVs using Adaptive Multi-Agent Multi-Armed Bandits	Jul 20, 2023	FairnessMulti-Armed Bandits	—Unverified
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Adaptive Linear Estimating Equations	Jul 14, 2023	Multi-Armed Bandits	CodeCode Available
On Interpolating Experts and Multi-Armed Bandits	Jul 14, 2023	Multi-Armed Bandits	—Unverified
Tracking Most Significant Shifts in Nonparametric Contextual Bandits	Jul 11, 2023	Multi-Armed Bandits	—Unverified
SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification of Top-k Features	Jul 10, 2023	Feature ImportanceMulti-Armed Bandits	—Unverified
BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits	Jul 7, 2023	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 36 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified