Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1262 papers

Title	Date	Tasks	Status
Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits	Feb 21, 2024	Multi-Armed Bandits	—Unverified
Incentivized Exploration via Filtered Posterior Sampling	Feb 20, 2024	Multi-Armed Bandits	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
Efficient Prompt Optimization Through the Lens of Best Arm Identification	Feb 15, 2024	Instruction FollowingMulti-Armed Bandits	—Unverified
FLASH: Federated Learning Across Simultaneous Heterogeneities	Feb 13, 2024	Federated LearningMulti-Armed Bandits	—Unverified
Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits	Feb 13, 2024	Multi-Armed Bandits	—Unverified
Stochastic contextual bandits with graph feedback: from independence number to MAS number	Feb 12, 2024	Multi-Armed Bandits	—Unverified
Efficient Contextual Bandits with Uninformed Feedback Graphs	Feb 12, 2024	Multi-Armed Banditsregression	—Unverified
Contextual Multinomial Logit Bandits with General Value Functions	Feb 12, 2024	Computational EfficiencyMulti-Armed Bandits	—Unverified
Replicability is Asymptotically Free in Multi-armed Bandits	Feb 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning	Feb 11, 2024	Distributional Reinforcement LearningMulti-Armed Bandits	—Unverified
Fast UCB-type algorithms for stochastic bandits with heavy and super heavy symmetric noise	Feb 10, 2024	Multi-Armed Bandits	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Fairness of Exposure in Online Restless Multi-armed Bandits	Feb 9, 2024	FairnessMulti-Armed Bandits	CodeCode Available
Simultaneously Achieving Group Exposure Fairness and Within-Group Meritocracy in Stochastic Bandits	Feb 8, 2024	AttributeExposure Fairness	CodeCode Available
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Fairness and Privacy Guarantees in Federated Contextual Bandits	Feb 5, 2024	FairnessFederated Learning	—Unverified
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction	Feb 3, 2024	MarketingMulti-Armed Bandits	CodeCode Available
Multi-Armed Bandits with Interference	Feb 2, 2024	Multi-Armed Bandits	—Unverified
Query-Efficient Correlation Clustering with Noisy Oracle	Feb 2, 2024	ClusteringMulti-Armed Bandits	—Unverified
Falcon: Fair Active Learning using Multi-armed Bandits	Jan 23, 2024	Active LearningAttribute	CodeCode Available
Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints	Jan 21, 2024	Multi-Armed BanditsMulti-Task Learning	—Unverified
Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits	Jan 21, 2024	Multi-Armed Banditsregression	CodeCode Available
Adaptive Regret for Bandits Made Possible: Two Queries Suffice	Jan 17, 2024	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 11 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified