Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 1262 papers

Title	Date	Tasks	Status
Finding All -Good Arms in Stochastic Bandits	Dec 1, 2020	AllMulti-Armed Bandits	—Unverified
A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit	Nov 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Resonance: Replacing Software Constants with Context-Aware Models in Real-time Communication	Nov 23, 2020	FrictionMulti-Armed Bandits	—Unverified
Fully Gap-Dependent Bounds for Multinomial Logit Bandit	Nov 19, 2020	Multi-Armed Bandits	—Unverified
A New Bandit Setting Balancing Information from State Evolution and Corrupted Context	Nov 16, 2020	Decision MakingEfficient Exploration	CodeCode Available
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Metric-Free Individual Fairness with Cooperative Contextual Bandits	Nov 13, 2020	Decision MakingFairness	—Unverified
Improving Offline Contextual Bandits with Distributional Robustness	Nov 13, 2020	counterfactualMulti-Armed Bandits	—Unverified
Active Reinforcement Learning: Observing Rewards at a Cost	Nov 13, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Towards Fundamental Limits of Multi-armed Bandits with Random Walk Feedback	Nov 3, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
On No-Sensing Adversarial Multi-player Multi-armed Bandits with Collision Communications	Nov 2, 2020	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Censored Consumption of Resources	Nov 2, 2020	Multi-Armed Bandits	—Unverified
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism	Oct 31, 2020	Distributed ComputingMulti-Armed Bandits	—Unverified
Learning to Actively Learn: A Robust Approach	Oct 29, 2020	Active LearningMeta-Learning	—Unverified
Tractable contextual bandits beyond realizability	Oct 25, 2020	Multi-Armed Bandits	—Unverified
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards	Oct 24, 2020	Multi-Armed Bandits	—Unverified
Online Semi-Supervised Learning with Bandit Feedback	Oct 23, 2020	ImputationMulti-Armed Bandits	—Unverified
Online Algorithm for Unsupervised Sequential Selection with Contextual Information	Oct 23, 2020	Multi-Armed Bandits	—Unverified
Quantile Bandits for Best Arms Identification	Oct 22, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Achieving User-Side Fairness in Contextual Bandits	Oct 22, 2020	FairnessMulti-Armed Bandits	—Unverified
DBA bandits: Self-driving index tuning under ad-hoc, analytical workloads with safety guarantees	Oct 19, 2020	AttributeDecision Making	—Unverified
Stochastic Bandits with Vector Losses: Minimizing ^-Norm of Relative Losses	Oct 15, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Asymptotic Randomised Control with applications to bandits	Oct 14, 2020	ARCMulti-Armed Bandits	—Unverified
Multi-Armed Bandits with Dependent Arms	Oct 13, 2020	Multi-Armed Bandits	—Unverified
Adapting to Delays and Data in Adversarial Multi-Armed Bandits	Oct 12, 2020	Multi-Armed Bandits	—Unverified
Online and Distribution-Free Robustness: Regression and Contextual Bandits with Huber Contamination	Oct 8, 2020	Adversarial RobustnessMulti-Armed Bandits	—Unverified
Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective	Oct 7, 2020	Active LearningMulti-Armed Bandits	—Unverified
CorrAttack: Black-box Adversarial Attack with Structured Search	Oct 3, 2020	Adversarial AttackBayesian Optimization	—Unverified
Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal Algorithm Escaping the Curse of Horizon	Sep 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits for adapting to changing User preferences over time	Sep 21, 2020	Incremental LearningMulti-Armed Bandits	—Unverified
Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms	Sep 20, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Online Semi-Supervised Learning in Contextual Bandits with Episodic Reward	Sep 17, 2020	ClusteringDecision Making	CodeCode Available
Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users' Feedback	Sep 16, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Thompson Sampling for Unsupervised Sequential Selection	Sep 16, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Deep Contextual Bandits for Fast Initial Access in mmWave Based User-Centric Ultra-Dense Networks	Sep 15, 2020	ManagementMulti-Armed Bandits	—Unverified
Dual-Mandate Patrols: Multi-Armed Bandits for Green Security	Sep 14, 2020	Multi-Armed Bandits	CodeCode Available
VacSIM: Learning Effective Strategies for COVID-19 Vaccine Distribution using Reinforcement Learning	Sep 14, 2020	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Unifying Clustered and Non-stationary Bandits	Sep 5, 2020	Change DetectionClustering	—Unverified
Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits	Aug 28, 2020	Multi-Armed Bandits	—Unverified
Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual Bandits	Aug 27, 2020	Decision MakingMarketing	—Unverified
A Sleeping, Recovering Bandit Algorithm for Optimizing Recurring Notifications	Aug 23, 2020	Multi-Armed Bandits	—Unverified
Contextual Bandits for Advertising Budget Allocation	Aug 22, 2020	MarketingMulti-Armed Bandits	—Unverified
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation	Aug 21, 2020	ManagementMulti-Armed Bandits	—Unverified
Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit Problems	Aug 17, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Kernel Methods for Cooperative Multi-Agent Contextual Bandits	Aug 14, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
A framework for optimizing COVID-19 testing policy using a Multi Armed Bandit approach	Jul 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Greedy Bandits with Sampled Context	Jul 27, 2020	Decision MakingMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 17 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified