Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 1262 papers

Title	Date	Tasks	Status	Hype
Flexible and Efficient Contextual Bandits with Heterogeneous Treatment Effect Oracles	Mar 30, 2022	Decision MakingHeterogeneous Treatment Effect Estimation	—Unverified	0
Best Arm Identification in Restless Markov Multi-Armed Bandits	Mar 29, 2022	Multi-Armed Bandits	—Unverified	0
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Modeling Attrition in Recommender Systems with Departing Bandits	Mar 25, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available	0
Efficient Algorithms for Extreme Bandits	Mar 21, 2022	Multi-Armed Bandits	CodeCode Available	0
Approximate Function Evaluation via Multi-Armed Bandits	Mar 18, 2022	Multi-Armed Bandits	—Unverified	0
Reinforced Meta Active Learning	Mar 9, 2022	Active LearningInformativeness	—Unverified	0
Reward-Biased Maximum Likelihood Estimation for Neural Contextual Bandits	Mar 8, 2022	Multi-Armed Bandits	—Unverified	0
PAC-Bayesian Lifelong Learning For Multi-Armed Bandits	Mar 7, 2022	Lifelong learningMulti-Armed Bandits	—Unverified	0
Restless Multi-Armed Bandits under Exogenous Global Markov Process	Feb 28, 2022	Multi-Armed Bandits	—Unverified	0
Federated Online Sparse Decision Making	Feb 27, 2022	Decision MakingMulti-Armed Bandits	—Unverified	0
Truncated LinUCB for Stochastic Linear Bandits	Feb 23, 2022	Multi-Armed Bandits	CodeCode Available	0
The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player Multi-Armed Bandits with no Communication	Feb 19, 2022	Multi-Armed Bandits	—Unverified	0
Cost-Efficient Distributed Learning via Combinatorial Multi-Armed Bandits	Feb 16, 2022	Multi-Armed Bandits	—Unverified	0
Versatile Dueling Bandits: Best-of-both-World Analyses for Online Learning from Preferences	Feb 14, 2022	Multi-Armed Bandits	—Unverified	0
Off-Policy Evaluation for Large Action Spaces via Embeddings	Feb 13, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2
Shuffle Private Linear Contextual Bandits	Feb 11, 2022	Multi-Armed Bandits	—Unverified	0
Efficient Kernel UCB for Contextual Bandits	Feb 11, 2022	Computational EfficiencyMulti-Armed Bandits	CodeCode Available	0
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified	0
Settling the Communication Complexity for Distributed Offline Reinforcement Learning	Feb 10, 2022	Multi-Armed BanditsOffline RL	—Unverified	0
Smoothed Online Learning is as Easy as Statistical Learning	Feb 9, 2022	Learning TheoryMulti-Armed Bandits	—Unverified	0
Budgeted Combinatorial Multi-Armed Bandits	Feb 8, 2022	Multi-Armed Bandits	—Unverified	0
Variance-Optimal Augmentation Logging for Counterfactual Evaluation in Contextual Bandits	Feb 3, 2022	counterfactualMulti-Armed Bandits	—Unverified	0
Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model	Feb 3, 2022	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	2

Show:10 25 50

← PrevPage 24 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified