Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 1262 papers

Title	Date	Tasks	Status
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits	Mar 5, 2024	Multi-Armed Bandits	—Unverified
Learning and Fairness in Energy Harvesting: A Maximin Multi-Armed Bandits Approach	Mar 13, 2020	FairnessMulti-Armed Bandits	—Unverified
Learning-Based User Association for MmWave Vehicular Networks With Kernelized Contextual Bandits	Apr 15, 2025	Multi-Armed Bandits	—Unverified
Learning by Repetition: Stochastic Multi-armed Bandits under Priming Effect	Jun 18, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Learning Neural Contextual Bandits Through Perturbed Rewards	Jan 24, 2022	Computational EfficiencyMulti-Armed Bandits	—Unverified
Learning diverse rankings with multi-armed bandits	Jul 5, 2008	DiversityLearning-To-Rank	—Unverified
Learning Effective Exploration Strategies For Contextual Bandits	Sep 25, 2019	Imitation LearningLearning-To-Rank	—Unverified
Learning How to Price Charging in Electric Ride-Hailing Markets	Aug 25, 2023	Multi-Armed Bandits	—Unverified
Learning in Generalized Linear Contextual Bandits with Stochastic Delays	Dec 1, 2019	Multi-Armed Bandits	—Unverified
Learning in Restless Multi-Armed Bandits via Adaptive Arm Sequencing Rules	Jun 19, 2019	Multi-Armed Bandits	—Unverified
Learning Multiple Tasks in Parallel with a Shared Annotator	Dec 1, 2014	Binary ClassificationDocument Classification	—Unverified
Learning Personalized Decision Support Policies	Apr 13, 2023	Language ModellingLarge Language Model	—Unverified
Learning to Actively Learn: A Robust Approach	Oct 29, 2020	Active LearningMeta-Learning	—Unverified
Learning to Coordinate with Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems	Jul 1, 2018	Multi-Armed BanditsQ-Learning	—Unverified
Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints	Oct 24, 2024	FairnessMulti-Armed Bandits	—Unverified
Learning to Optimize Energy Efficiency in Energy Harvesting Wireless Sensor Networks	Dec 30, 2020	Multi-Armed Bandits	—Unverified
Learning to Rank in the Position Based Model with Bandit Feedback	Apr 27, 2020	Learning-To-RankMulti-Armed Bandits	—Unverified
Learning to Search Better Than Your Teacher	Feb 8, 2015	Multi-Armed BanditsStructured Prediction	—Unverified
Learning to Use Learners' Advice	Feb 16, 2017	BlockingMulti-Armed Bandits	—Unverified
Lenient Regret for Multi-Armed Bandits	Aug 10, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Lessons from Contextual Bandit Learning in a Customer Support Bot	May 6, 2019	Information RetrievalMulti-Armed Bandits	—Unverified
Leveraging (Biased) Information: Multi-armed Bandits with Offline Data	May 4, 2024	Multi-Armed Bandits	—Unverified
Leveraging Good Representations in Linear Contextual Bandits	Apr 8, 2021	Multi-Armed Bandits	—Unverified
Leveraging heterogeneous spillover in maximizing contextual bandit rewards	Oct 16, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Leveraging User-Triggered Supervision in Contextual Bandits	Feb 7, 2023	Multi-Armed Bandits	—Unverified
Lifelong Learning in Multi-Armed Bandits	Dec 28, 2020	Lifelong learningMulti-Armed Bandits	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
lil' UCB : An Optimal Exploration Algorithm for Multi-Armed Bandits	Dec 27, 2013	Multi-Armed Bandits	—Unverified
Linear Bandits with Limited Adaptivity and Learning Distributional Optimal Design	Jul 4, 2020	Active LearningMulti-Armed Bandits	—Unverified
Linear Contextual Bandits with Adversarial Corruptions	Oct 25, 2021	Multi-Armed Bandits	—Unverified
Linear Contextual Bandits with Interference	Sep 24, 2024	Causal InferenceDecision Making	—Unverified
Linear Contextual Bandits with Knapsacks	Jul 24, 2015	Multi-Armed Bandits	—Unverified
Lipschitz Bandits: Regret Lower Bounds and Optimal Algorithms	May 19, 2014	Multi-Armed Bandits	—Unverified
LLMs-augmented Contextual Bandit	Nov 3, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified
Local Clustering in Contextual Multi-Armed Bandits	Feb 26, 2021	ClusteringMulti-Armed Bandits	—Unverified
Local Differential Privacy for Sequential Decision Making in a Changing Environment	Jan 2, 2023	Decision MakingMulti-Armed Bandits	—Unverified
(Locally) Differentially Private Combinatorial Semi-Bandits	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving	—Unverified
Make the Minority Great Again: First-Order Regret Bound for Contextual Bandits	Feb 9, 2018	Multi-Armed Bandits	—Unverified
Making Contextual Decisions with Low Technical Debt	Jun 13, 2016	Multi-Armed Bandits	—Unverified
Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery	May 3, 2024	Decision MakingInterpretable Machine Learning	—Unverified
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization	Dec 16, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Max-Utility Based Arm Selection Strategy For Sequential Query Recommendations	Aug 31, 2021	Multi-Armed Bandits	—Unverified
MBExplainer: Multilevel bandit-based explanations for downstream models with augmented graph embeddings	Nov 1, 2024	Graph ClassificationMulti-Armed Bandits	—Unverified
Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits	Nov 30, 2024	Multi-Armed Bandits	—Unverified
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified
Meta-learners' learning dynamics are unlike learners'	May 3, 2019	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandit Algorithms	Jul 5, 2023	Meta-LearningMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 16 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified