Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 1262 papers

Title	Date	Tasks	Status
Nonparametric Contextual Bandits in Metric Spaces with Unknown Metric	Dec 1, 2019	Multi-Armed Bandits	—Unverified
Nonparametric Stochastic Contextual Bandits	Jan 5, 2018	General Classificationimage-classification	—Unverified
Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling	Oct 11, 2023	Multi-Armed Bandits	—Unverified
Adversarial Rewards in Universal Learning for Contextual Bandits	Feb 14, 2023	Multi-Armed Bandits	—Unverified
Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset	Nov 6, 2024	Continual LearningMulti-Armed Bandits	—Unverified
Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach	Feb 10, 2021	Multi-Armed Banditsreinforcement-learning	—Unverified
Nonstochastic Multi-Armed Bandits with Graph-Structured Feedback	Sep 30, 2014	Multi-Armed Bandits	—Unverified
Non-Stochastic Multi-Player Multi-Armed Bandits: Optimal Rate With Collision Information, Sublinear Without	Apr 28, 2019	Multi-Armed Bandits	—Unverified
No-Regret is not enough! Bandits with General Constraints through Adaptive Regret Minimization	May 10, 2024	Multi-Armed Bandits	—Unverified
No-Regret Learning for Fair Multi-Agent Social Welfare Optimization	May 31, 2024	FairnessMulti-Armed Bandits	—Unverified
Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration	Dec 19, 2023	Bayesian InferenceDecision Making	—Unverified
Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search	Jan 21, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments	May 25, 2025	ClusteringMulti-Armed Bandits	—Unverified
Offline Contextual Bandits for Wireless Network Optimization	Nov 11, 2021	Computational EfficiencyMulti-Armed Bandits	—Unverified
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation	Aug 21, 2020	ManagementMulti-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff	May 28, 2024	Density EstimationMulti-Armed Bandits	—Unverified
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified
Off-Policy Evaluation for Large Action Spaces via Policy Convolution	Oct 24, 2023	Multi-Armed BanditsOff-policy evaluation	—Unverified
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits	Sep 30, 2022	Multi-Armed Bandits	—Unverified
On conditional versus marginal bias in multi-armed bandits	Feb 19, 2020	Multi-Armed Bandits	—Unverified
On Differentially Private Federated Linear Contextual Bandits	Feb 27, 2023	Multi-Armed Bandits	—Unverified
On Finding the Largest Mean Among Many	Jun 17, 2013	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 27 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified