Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1262 papers

Title	Date	Tasks	Status	Score
A Convex Framework for Confounding Robust Inference	Sep 21, 2023	Model SelectionMulti-Armed Bandits	CodeCode Available	5
Contextual bandits with entropy-based human feedback	Feb 12, 2025	Multi-Armed Bandits	CodeCode Available	5
Contextual Bandits with Stochastic Experts	Feb 23, 2018	Multi-Armed Bandits	CodeCode Available	5
Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits	Mar 1, 2023	Computational EfficiencyMulti-Armed Bandits	CodeCode Available	5
Adaptive Data Depth via Multi-Armed Bandits	Nov 8, 2022	Multi-Armed Bandits	CodeCode Available	5
Empirical Likelihood for Contextual Bandits	Jun 7, 2019	Multi-Armed Bandits	CodeCode Available	5
RoME: A Robust Mixed-Effects Bandit Algorithm for Optimizing Mobile Health Interventions	Dec 11, 2023	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Estimation of Warfarin Dosage with Reinforcement Learning	Sep 15, 2021	Multi-Armed Banditsreinforcement-learning	CodeCode Available	5
Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks	Mar 9, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Federated Multi-armed Bandits with Personalization	Feb 25, 2021	Federated LearningMulti-Armed Bandits	CodeCode Available	5
Finding All ε-Good Arms in Stochastic Bandits	Jun 16, 2020	AllMulti-Armed Bandits	CodeCode Available	5
Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits	Jul 23, 2021	Multi-Armed Bandits	CodeCode Available	5
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available	5
Gaussian Gated Linear Networks	Jun 10, 2020	DenoisingDensity Estimation	CodeCode Available	5
Group Meritocratic Fairness in Linear Contextual Bandits	Jun 7, 2022	FairnessMulti-Armed Bandits	CodeCode Available	5
Batched Multi-armed Bandits Problem	Apr 3, 2019	Multi-Armed Bandits	CodeCode Available	5
Combinatorial Multi-armed Bandits for Resource Allocation	May 10, 2021	Multi-Armed Bandits	CodeCode Available	5
Combinatorial Bandits under Strategic Manipulations	Feb 25, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents	Aug 6, 2024	Multi-Armed BanditsSensitivity	CodeCode Available	5
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels	Aug 10, 2024	Knowledge TracingMulti-Armed Bandits	CodeCode Available	5
Confidence Intervals for Policy Evaluation in Adaptive Experiments	Nov 7, 2019	Experimental DesignMulti-Armed Bandits	CodeCode Available	5
Identification of the Generalized Condorcet Winner in Multi-dueling Bandits	Dec 1, 2021	Multi-Armed Bandits	CodeCode Available	5
Causal Contextual Bandits with Adaptive Context	May 28, 2024	Multi-Armed Bandits	CodeCode Available	5
Cascading Bandits for Large-Scale Recommendation Problems	Mar 17, 2016	Multi-Armed BanditsRecommendation Systems	CodeCode Available	5
Introduction to Multi-Armed Bandits	Apr 15, 2019	Multi-Armed Bandits	CodeCode Available	5
Bayesian Design Principles for Frequentist Sequential Learning	Oct 1, 2023	Multi-Armed Banditsreinforcement-learning	CodeCode Available	5
Bayesian Optimisation over Multiple Continuous and Categorical Inputs	Jun 20, 2019	Bayesian OptimisationDiversity	CodeCode Available	5
Inverse Contextual Bandits: Learning How Behavior Evolves over Time	Jul 13, 2021	BenchmarkingDecision Making	CodeCode Available	5
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	5
Kernel Conditional Moment Constraints for Confounding Robust Inference	Feb 26, 2023	Multi-Armed BanditsSensitivity	CodeCode Available	5
Causally Abstracted Multi-armed Bandits	Apr 26, 2024	Decision MakingMulti-Armed Bandits	CodeCode Available	5
Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals	Jun 12, 2023	Multi-Armed Bandits	CodeCode Available	5
Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in a Simulated Financial Market	Aug 4, 2022	Bayesian OptimisationBayesian Optimization	CodeCode Available	5
Let's Get It Started: Fostering the Discoverability of New Releases on Deezer	Jan 5, 2024	Multi-Armed Bandits	CodeCode Available	5
Model selection for contextual bandits	Jun 3, 2019	modelModel Selection	CodeCode Available	5
Locally Differentially Private (Contextual) Bandits Learning	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving Deep Learning	CodeCode Available	5
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	CodeCode Available	5
Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery	Feb 24, 2024	Multi-Armed Bandits	CodeCode Available	5
Best Arm Identification with Fixed Budget: A Large Deviation Perspective	Dec 19, 2023	Multi-Armed Bandits	CodeCode Available	5
Adaptive Linear Estimating Equations	Jul 14, 2023	Multi-Armed Bandits	CodeCode Available	5
Censored Semi-Bandits: A Framework for Resource Allocation with Censored Feedback	Sep 4, 2019	Multi-Armed Bandits	CodeCode Available	5
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes	Oct 15, 2019	Multi-Armed Banditsreinforcement-learning	CodeCode Available	5
Distribution oblivious, risk-aware algorithms for multi-armed bandits with unbounded rewards	Jun 3, 2019	Multi-Armed Bandits	CodeCode Available	5
More Robust Doubly Robust Off-policy Evaluation	Feb 10, 2018	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Bandit-Based Monte Carlo Optimization for Nearest Neighbors	May 21, 2018	ClusteringMulti-Armed Bandits	CodeCode Available	5
Multi-agent Multi-armed Bandits with Minimum Reward Guarantee Fairness	Feb 21, 2025	FairnessMulti-Armed Bandits	CodeCode Available	5
An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits	Nov 9, 2023	Causal InferenceExperimental Design	CodeCode Available	5
Multi-Armed Bandits in Brain-Computer Interfaces	May 19, 2022	Multi-Armed Bandits	CodeCode Available	5
Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting	Jun 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available	5
Decentralized Cooperative Stochastic Bandits	Oct 10, 2018	Multi-Armed Bandits	CodeCode Available	5

Show:10 25 50

← PrevPage 4 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified