Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 876–900 of 1262 papers

Title	Date	Tasks	Status
Second Order Bounds for Contextual Bandits with Function Approximation	Sep 24, 2024	Multi-Armed Bandits	—Unverified
Selecting the best system and multi-armed bandits	Jul 16, 2015	Multi-Armed Bandits	—Unverified
Selective Harvesting over Networks	Mar 15, 2017	Multi-Armed Bandits	—Unverified
Selective Intervention Planning using Restless Multi-Armed Bandits to Improve Maternal and Child Health Outcomes	Mar 7, 2021	Multi-Armed Bandits	—Unverified
Selectively Contextual Bandits	May 9, 2022	Multi-Armed Bandits	—Unverified
Selective Reviews of Bandit Problems in AI via a Statistical View	Dec 3, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Selfish Robustness and Equilibria in Multi-Player Bandits	Feb 4, 2020	Multi-Armed Bandits	—Unverified
Self-Supervised Contextual Bandits in Computer Vision	Mar 18, 2020	ClusteringColorization	—Unverified
Self-Tuning Bandits over Unknown Covariate-Shifts	Jul 16, 2020	Multi-Armed Bandits	—Unverified
Semantic Parsing for Planning Goals as Constrained Combinatorial Contextual Bandits	Jan 16, 2022	Multi-Armed BanditsSemantic Parsing	—Unverified
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates	Mar 1, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Sequential Batch Learning in Finite-Action Linear Contextual Bandits	Apr 14, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified
Constrained Restless Bandits for Dynamic Scheduling in Cyber-Physical Systems	Apr 18, 2019	Decision MakingDecision Making Under Uncertainty	—Unverified
Sequential Design for Ranking Response Surfaces	Sep 3, 2015	Experimental DesignMulti-Armed Bandits	—Unverified
Sequential Monte Carlo Bandits	Oct 4, 2013	Multi-Armed Bandits	—Unverified
Settling the Communication Complexity for Distributed Offline Reinforcement Learning	Feb 10, 2022	Multi-Armed BanditsOffline RL	—Unverified
SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification of Top-k Features	Jul 10, 2023	Feature ImportanceMulti-Armed Bandits	—Unverified
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF	Nov 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Shuffle Private Linear Contextual Bandits	Feb 11, 2022	Multi-Armed Bandits	—Unverified
Simple Regret Minimization for Contextual Bandits	Oct 17, 2018	Multi-Armed Bandits	—Unverified
Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition	Jun 10, 2020	Multi-Armed Bandits	—Unverified
Skyline Identification in Multi-Armed Bandits	Nov 12, 2017	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 36 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified