Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 1262 papers

Title	Date	Tasks	Status	Hype
Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity	Apr 10, 2024	Decision MakingMeta Reinforcement Learning	CodeCode Available	0
Generalized Linear Bandits with Limited Adaptivity	Apr 10, 2024	Multi-Armed Bandits	CodeCode Available	0
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Hypothesis Generation with Large Language Models	Apr 5, 2024	Multi-Armed Bandits	CodeCode Available	2
On the Importance of Uncertainty in Decision-Making with Large Language Models	Apr 3, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy	Apr 2, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Nearly-tight Approximation Guarantees for the Improving Multi-Armed Bandits Problem	Apr 1, 2024	Multi-Armed Bandits	—Unverified	0
A Correction of Pseudo Log-Likelihood Method	Mar 26, 2024	Multi-Armed Bandits	—Unverified	0
Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making	Mar 22, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Transfer in Sequential Multi-armed Bandits via Reward Samples	Mar 19, 2024	Multi-Armed Bandits	—Unverified	0
Phasic Diversity Optimization for Population-Based Reinforcement Learning	Mar 17, 2024	DiversityMuJoCo	—Unverified	0
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
Efficient Public Health Intervention Planning Using Decomposition-Based Decision-Focused Learning	Mar 8, 2024	Multi-Armed Bandits	—Unverified	0
A General Reduction for High-Probability Analysis with General Light-Tailed Distributions	Mar 5, 2024	Multi-Armed BanditsStochastic Optimization	—Unverified	0
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits	Mar 5, 2024	Multi-Armed Bandits	—Unverified	0
Adaptive Learning Rate for Follow-the-Regularized-Leader: Competitive Analysis and Best-of-Both-Worlds	Mar 1, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Federated Linear Contextual Bandits with Heterogeneous Clients	Feb 29, 2024	AllFederated Learning	—Unverified	0
Investigating Gender Fairness in Machine Learning-driven Personalized Care for Chronic Pain	Feb 29, 2024	Decision MakingFairness	—Unverified	0
Batched Nonparametric Contextual Bandits	Feb 27, 2024	Multi-Armed Bandits	—Unverified	0
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement	Feb 24, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery	Feb 24, 2024	Multi-Armed Bandits	CodeCode Available	0
Multi-Armed Bandits with Abstention	Feb 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Optimistic Information Directed Sampling	Feb 23, 2024	Multi-Armed Bandits	—Unverified	0
A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health	Feb 22, 2024	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 10 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified