Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1262 papers

Title	Date	Tasks	Status
Leveraging (Biased) Information: Multi-armed Bandits with Offline Data	May 4, 2024	Multi-Armed Bandits	—Unverified
Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery	May 3, 2024	Decision MakingInterpretable Machine Learning	—Unverified
Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback	May 2, 2024	Multi-Armed BanditsSequential Decision Making	—Unverified
Recommenadation aided Caching using Combinatorial Multi-armed Bandits	Apr 30, 2024	Multi-Armed Bandits	—Unverified
Disentangling Exploration from Exploitation	Apr 29, 2024	DisentanglementMulti-Armed Bandits	—Unverified
Causally Abstracted Multi-armed Bandits	Apr 26, 2024	Decision MakingMulti-Armed Bandits	CodeCode Available
Structured Reinforcement Learning for Delay-Optimal Data Transmission in Dense mmWave Networks	Apr 25, 2024	FairnessMulti-Armed Bandits	—Unverified
Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity	Apr 10, 2024	Decision MakingMeta Reinforcement Learning	CodeCode Available
Generalized Linear Bandits with Limited Adaptivity	Apr 10, 2024	Multi-Armed Bandits	CodeCode Available
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
On the Importance of Uncertainty in Decision-Making with Large Language Models	Apr 3, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy	Apr 2, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
Nearly-tight Approximation Guarantees for the Improving Multi-Armed Bandits Problem	Apr 1, 2024	Multi-Armed Bandits	—Unverified
A Correction of Pseudo Log-Likelihood Method	Mar 26, 2024	Multi-Armed Bandits	—Unverified
Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making	Mar 22, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Transfer in Sequential Multi-armed Bandits via Reward Samples	Mar 19, 2024	Multi-Armed Bandits	—Unverified
Phasic Diversity Optimization for Population-Based Reinforcement Learning	Mar 17, 2024	DiversityMuJoCo	—Unverified
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Efficient Public Health Intervention Planning Using Decomposition-Based Decision-Focused Learning	Mar 8, 2024	Multi-Armed Bandits	—Unverified
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits	Mar 5, 2024	Multi-Armed Bandits	—Unverified
A General Reduction for High-Probability Analysis with General Light-Tailed Distributions	Mar 5, 2024	Multi-Armed BanditsStochastic Optimization	—Unverified
Adaptive Learning Rate for Follow-the-Regularized-Leader: Competitive Analysis and Best-of-Both-Worlds	Mar 1, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain	Feb 29, 2024	Decision MakingFairness	—Unverified
Federated Linear Contextual Bandits with Heterogeneous Clients	Feb 29, 2024	AllFederated Learning	—Unverified
Batched Nonparametric Contextual Bandits	Feb 27, 2024	Multi-Armed Bandits	—Unverified
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery	Feb 24, 2024	Multi-Armed Bandits	CodeCode Available
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement	Feb 24, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Optimistic Information Directed Sampling	Feb 23, 2024	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Abstention	Feb 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified
A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health	Feb 22, 2024	Language ModelingLanguage Modelling	—Unverified
Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits	Feb 21, 2024	Multi-Armed Bandits	—Unverified
Incentivized Exploration via Filtered Posterior Sampling	Feb 20, 2024	Multi-Armed Bandits	—Unverified
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Efficient Prompt Optimization Through the Lens of Best Arm Identification	Feb 15, 2024	Instruction FollowingMulti-Armed Bandits	—Unverified
FLASH: Federated Learning Across Simultaneous Heterogeneities	Feb 13, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits	Feb 13, 2024	Multi-Armed Bandits	—Unverified
Replicability is Asymptotically Free in Multi-armed Bandits	Feb 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Multinomial Logit Bandits with General Value Functions	Feb 12, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Efficient Contextual Bandits with Uninformed Feedback Graphs	Feb 12, 2024	Multi-Armed Banditsregression	—Unverified
Stochastic contextual bandits with graph feedback: from independence number to MAS number	Feb 12, 2024	Multi-Armed Bandits	—Unverified
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning	Feb 11, 2024	Distributional Reinforcement LearningMulti-Armed Bandits	—Unverified
Fast UCB-type algorithms for stochastic bandits with heavy and super heavy symmetric noise	Feb 10, 2024	Multi-Armed Bandits	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Fairness of Exposure in Online Restless Multi-armed Bandits	Feb 9, 2024	FairnessMulti-Armed Bandits	CodeCode Available
Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits	Feb 8, 2024	AttributeExposure Fairness	CodeCode Available
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Fairness and Privacy Guarantees in Federated Contextual Bandits	Feb 5, 2024	FairnessFederated Learning	—Unverified
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction	Feb 3, 2024	MarketingMulti-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 6 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified