Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 726–750 of 1262 papers

Title	Date	Tasks	Status
On Learning to Rank Long Sequences with Contextual Bandits	Jun 7, 2021	Learning-To-RankMulti-Armed Bandits	—Unverified
Multi-facet Contextual Bandits: A Neural Network Perspective	Jun 6, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks	Jun 5, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified
Differentially Private Multi-Armed Bandits in the Shuffle Model	Jun 5, 2021	Multi-Armed Bandits	—Unverified
Fair Exploration via Axiomatic Bargaining	Jun 4, 2021	FairnessMulti-Armed Bandits	—Unverified
Optimal Rates of (Locally) Differentially Private Heavy-tailed Multi-Armed Bandits	Jun 4, 2021	Multi-Armed Bandits	—Unverified
Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions	Jun 4, 2021	Multi-Armed Bandits	—Unverified
Addressing the Long-term Impact of ML Decisions via Policy Regret	Jun 2, 2021	Multi-Armed Bandits	CodeCode Available
Invariant Policy Learning: A Causal Perspective	Jun 1, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Recurrent Submodular Welfare and Matroid Blocking Semi-Bandits	May 21, 2021	BlockingMulti-Armed Bandits	—Unverified
Parallelizing Contextual Bandits	May 21, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Combinatorial Multi-armed Bandits for Resource Allocation	May 10, 2021	Multi-Armed Bandits	CodeCode Available
Stochastic Multi-Armed Bandits with Control Variates	May 9, 2021	Multi-Armed Bandits	—Unverified
Contextual Bandits with Sparse Data in Web setting	May 6, 2021	ArticlesDimensionality Reduction	—Unverified
Policy Learning with Adaptively Collected Data	May 5, 2021	Multi-Armed Bandits	CodeCode Available
Optimal Algorithms for Range Searching over Multi-Armed Bandits	May 4, 2021	Multi-Armed Bandits	—Unverified
Statistical Inference with M-Estimators on Adaptively Collected Data	Apr 29, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Online certification of preference-based fairness for personalized recommender systems	Apr 29, 2021	FairnessMulti-Armed Bandits	—Unverified
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Censored Semi-Bandits for Resource Allocation	Apr 12, 2021	Multi-Armed Bandits	—Unverified
An Efficient Algorithm for Deep Stochastic Contextual Bandits	Apr 12, 2021	Multi-Armed BanditsStochastic Optimization	—Unverified
Leveraging Good Representations in Linear Contextual Bandits	Apr 8, 2021	Multi-Armed Bandits	—Unverified
Multinomial Logit Contextual Bandits: Provable Optimality and Practicality	Mar 25, 2021	Multi-Armed Bandits	—Unverified
Towards Optimal Algorithms for Multi-Player Bandits without Collision Sensing Information	Mar 24, 2021	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 30 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified