Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1262 papers

Title	Date	Tasks	Status	Hype
Reinforcement Learning for Physical Layer Communications	Jun 22, 2021	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available	0
BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender System	Jun 21, 2021	Collaborative FilteringMulti-Armed Bandits	—Unverified	0
Smooth Sequential Optimisation with Delayed Feedback	Jun 21, 2021	Multi-Armed Bandits	—Unverified	0
Banker Online Mirror Descent	Jun 16, 2021	Multi-Armed Bandits	—Unverified	0
Guaranteed Fixed-Confidence Best Arm Identification in Multi-Armed Bandits: Simple Sequential Elimination Algorithms	Jun 12, 2021	Multi-Armed Bandits	—Unverified	0
Towards Costless Model Selection in Contextual Bandits: A Bias-Variance Perspective	Jun 11, 2021	Model SelectionMulti-Armed Bandits	—Unverified	0
A Central Limit Theorem, Loss Aversion and Multi-Armed Bandits	Jun 10, 2021	Multi-Armed Bandits	—Unverified	0
Fixed-Budget Best-Arm Identification in Structured Bandits	Jun 9, 2021	Multi-Armed Bandits	—Unverified	0
Scale Free Adversarial Multi Armed Bandits	Jun 8, 2021	Multi-Armed Bandits	—Unverified	0
Cooperative Stochastic Multi-agent Multi-armed Bandits Robust to Adversarial Corruptions	Jun 8, 2021	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified	0
Generalized Linear Bandits with Local Differential Privacy	Jun 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	1
On Learning to Rank Long Sequences with Contextual Bandits	Jun 7, 2021	Learning-To-RankMulti-Armed Bandits	—Unverified	0
Multi-facet Contextual Bandits: A Neural Network Perspective	Jun 6, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
Differentially Private Multi-Armed Bandits in the Shuffle Model	Jun 5, 2021	Multi-Armed Bandits	—Unverified	0
Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks	Jun 5, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Fair Exploration via Axiomatic Bargaining	Jun 4, 2021	FairnessMulti-Armed Bandits	—Unverified	0
Optimal Rates of (Locally) Differentially Private Heavy-tailed Multi-Armed Bandits	Jun 4, 2021	Multi-Armed Bandits	—Unverified	0
Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions	Jun 4, 2021	Multi-Armed Bandits	—Unverified	0
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits	Jun 3, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	1
Addressing the Long-term Impact of ML Decisions via Policy Regret	Jun 2, 2021	Multi-Armed Bandits	CodeCode Available	0
Invariant Policy Learning: A Causal Perspective	Jun 1, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
Recurrent Submodular Welfare and Matroid Blocking Semi-Bandits	May 21, 2021	BlockingMulti-Armed Bandits	—Unverified	0
Parallelizing Contextual Bandits	May 21, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified	0
Diffusion Approximations for Thompson Sampling	May 19, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks	May 10, 2021	Efficient ExplorationMulti-Armed Bandits	CodeCode Available	1
Combinatorial Multi-armed Bandits for Resource Allocation	May 10, 2021	Multi-Armed Bandits	CodeCode Available	0
Stochastic Multi-Armed Bandits with Control Variates	May 9, 2021	Multi-Armed Bandits	—Unverified	0
Contextual Bandits with Sparse Data in Web setting	May 6, 2021	ArticlesDimensionality Reduction	—Unverified	0
Policy Learning with Adaptively Collected Data	May 5, 2021	Multi-Armed Bandits	CodeCode Available	0
Optimal Algorithms for Range Searching over Multi-Armed Bandits	May 4, 2021	Multi-Armed Bandits	—Unverified	0
Statistical Inference with M-Estimators on Adaptively Collected Data	Apr 29, 2021	Decision MakingMulti-Armed Bandits	—Unverified	0
Online certification of preference-based fairness for personalized recommender systems	Apr 29, 2021	FairnessMulti-Armed Bandits	—Unverified	0
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Censored Semi-Bandits for Resource Allocation	Apr 12, 2021	Multi-Armed Bandits	—Unverified	0
An Efficient Algorithm for Deep Stochastic Contextual Bandits	Apr 12, 2021	Multi-Armed BanditsStochastic Optimization	—Unverified	0
Leveraging Good Representations in Linear Contextual Bandits	Apr 8, 2021	Multi-Armed Bandits	—Unverified	0
Multinomial Logit Contextual Bandits: Provable Optimality and Practicality	Mar 25, 2021	Multi-Armed Bandits	—Unverified	0
Towards Optimal Algorithms for Multi-Player Bandits without Collision Sensing Information	Mar 24, 2021	Multi-Armed Bandits	—Unverified	0
Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism	Mar 22, 2021	Imitation LearningMulti-Armed Bandits	—Unverified	0
Deep Contextual Bandits for Fast Neighbor-Aided Initial Access in mmWave Cell-Free Networks	Mar 17, 2021	Multi-Armed Bandits	—Unverified	0
Encrypted Linear Contextual Bandit	Mar 17, 2021	Decision MakingMulti-Armed Bandits	—Unverified	0
Nearest Neighbor Search Under Uncertainty	Mar 8, 2021	Multi-Armed BanditsRepresentation Learning	—Unverified	0
Efficient Algorithms for Finite Horizon and Streaming Restless Multi-Armed Bandit Problems	Mar 8, 2021	Multi-Armed Bandits	—Unverified	0
Selective Intervention Planning using Restless Multi-Armed Bandits to Improve Maternal and Child Health Outcomes	Mar 7, 2021	Multi-Armed Bandits	—Unverified	0
Fairness of Exposure in Stochastic Bandits	Mar 3, 2021	FairnessMulti-Armed Bandits	—Unverified	0
Local Clustering in Contextual Multi-Armed Bandits	Feb 26, 2021	ClusteringMulti-Armed Bandits	—Unverified	0
Adapting to Misspecification in Contextual Bandits with Offline Regression Oracles	Feb 26, 2021	Multi-Armed Banditsregression	—Unverified	0
Online Multi-Armed Bandits with Adaptive Inference	Feb 25, 2021	Causal InferenceDecision Making	—Unverified	0
Combinatorial Bandits under Strategic Manipulations	Feb 25, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
Federated Multi-armed Bandits with Personalization	Feb 25, 2021	Federated LearningMulti-Armed Bandits	CodeCode Available	0

Show:10 25 50

← PrevPage 15 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified