Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 1262 papers

Title	Date	Tasks	Status
Classical Bandit Algorithms for Entanglement Detection in Parameterized Qubit States	Jun 28, 2024	Multi-Armed Bandits	—Unverified
Clustered Linear Contextual Bandits with Knapsacks	Aug 21, 2023	EconometricsMulti-Armed Bandits	—Unverified
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents	May 29, 2025	Multi-Armed Bandits	—Unverified
Parallel Best Arm Identification in Heterogeneous Environments	Jul 16, 2022	Multi-Armed Bandits	—Unverified
Collaborative Learning with Limited Interaction: Tight Bounds for Distributed Exploration in Multi-Armed Bandits	Apr 5, 2019	Multi-Armed Bandits	—Unverified
Collaborative Min-Max Regret in Grouped Multi-Armed Bandits	Jun 12, 2025	Multi-Armed Bandits	—Unverified
Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	—Unverified
Communication-Efficient Collaborative Regret Minimization in Multi-Armed Bandits	Jan 26, 2023	Multi-agent Reinforcement LearningMulti-Armed Bandits	—Unverified
Top-k Combinatorial Bandits with Full-Bandit Feedback	May 28, 2019	Multi-Armed Bandits	—Unverified
Bayesian Analysis of Combinatorial Gaussian Process Bandits	Dec 20, 2023	Bayesian InferenceInformativeness	—Unverified
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified
Combinatorial Multi-armed Bandits for Real-Time Strategy Games	Oct 13, 2017	Multi-Armed BanditsReal-Time Strategy Games	—Unverified
Combinatorial Multi-Armed Bandits with Filtered Feedback	May 26, 2017	Multi-Armed Bandits	—Unverified
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond	Jun 3, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Combinatorial Network Optimization with Unknown Variables: Multi-Armed Bandits with Linear Rewards	Nov 22, 2010	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Pure Exploration of Multi-Armed Bandits	Dec 1, 2014	Multi-Armed Bandits	—Unverified
Combinatorial Pure Exploration with Full-bandit Feedback and Beyond: Solving Combinatorial Optimization under Uncertainty with Limited Observation	Dec 31, 2020	Combinatorial OptimizationMulti-Armed Bandits	—Unverified
Combinatorial Semi-Bandits with Knapsacks	May 23, 2017	Multi-Armed Bandits	—Unverified
Combining Difficulty Ranking with Multi-Armed Bandits to Sequence Educational Content	Apr 14, 2018	Multi-Armed Bandits	—Unverified
Combining Online Learning and Offline Learning for Contextual Bandits with Deficient Support	Jul 24, 2021	Multi-Armed Bandits	—Unverified
Communication Efficient Distributed Learning for Kernelized Contextual Bandits	Jun 10, 2022	Multi-Armed Bandits	—Unverified
Comparative Performance of Collaborative Bandit Algorithms: Effect of Sparsity and Exploration Intensity	Oct 15, 2024	ClusteringMulti-Armed Bandits	—Unverified
Competing Bandits in Matching Markets	Jun 12, 2019	Multi-Armed Bandits	—Unverified
Competing Bandits: The Perils of Exploration Under Competition	Jul 20, 2020	Multi-Armed Bandits	—Unverified
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs	May 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs	Jun 5, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Confidence-Budget Matching for Sequential Budgeted Learning	Feb 5, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified
Conformal Off-Policy Prediction in Contextual Bandits	Jun 9, 2022	Conformal PredictionMulti-Armed Bandits	—Unverified
Conservative Contextual Bandits: Beyond Linear Representations	Dec 9, 2024	Multi-Armed BanditsSequential Decision Making	—Unverified
Constant regret for sequence prediction with limited advice	Oct 5, 2022	Multi-Armed BanditsPrediction	—Unverified
Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems	Sep 17, 2022	Multi-Armed BanditsSelf-Learning	—Unverified
Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget	Nov 27, 2022	AttributeMulti-Armed Bandits	—Unverified
Context-Aware Bandits	Oct 12, 2015	ClusteringMulti-Armed Bandits	—Unverified
Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear Bandit Algorithms	Nov 8, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandit Applications in Customer Support Bot	Dec 6, 2021	Multi-Armed Bandits	—Unverified
Contextual Bandits and Imitation Learning via Preference-Based Active Queries	Jul 24, 2023	Imitation LearningMulti-Armed Bandits	—Unverified
Contextual Bandits and Optimistically Universal Learning	Dec 31, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandits Evolving Over Finite Time	Nov 14, 2019	Multi-Armed Bandits	—Unverified
Contextual Bandits for adapting to changing User preferences over time	Sep 21, 2020	Incremental LearningMulti-Armed Bandits	—Unverified
Contextual Bandits for Advertising Budget Allocation	Aug 22, 2020	MarketingMulti-Armed Bandits	—Unverified
Contextual Bandits for Advertising Campaigns: A Diffusion-Model Independent Approach (Extended Version)	Jan 13, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandits for Evaluating and Improving Inventory Control Policies	Oct 24, 2023	Multi-Armed Bandits	—Unverified
Contextual Bandits for Unbounded Context Distributions	Aug 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning	Nov 22, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen	Nov 30, 2024	Multi-Armed Banditsregression	—Unverified
Linear Bandits with Stochastic Delayed Feedback	Jul 5, 2018	MarketingMulti-Armed Bandits	—Unverified
Contextual Bandits with Arm Request Costs and Delays	Oct 17, 2024	Movie RecommendationMulti-Armed Bandits	—Unverified
Contextual Bandits with Budgeted Information Reveal	May 29, 2023	Multi-Armed Bandits	—Unverified
Contextual bandits with concave rewards, and an application to fair ranking	Oct 18, 2022	FairnessMulti-Armed Bandits	—Unverified
Contextual Bandits with Continuous Actions: Smoothing, Zooming, and Adapting	Feb 5, 2019	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 25 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified