Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–825 of 1262 papers

Title	Date	Tasks	Status
Meta-Learning surrogate models for sequential decision making	Mar 28, 2019	Bayesian OptimisationDecision Making	—Unverified
Meta-Prompt Optimization for LLM-Based Sequential Decision Making	Feb 2, 2025	Bayesian OptimizationDecision Making	—Unverified
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified
Metric-Free Individual Fairness with Cooperative Contextual Bandits	Nov 13, 2020	Decision MakingFairness	—Unverified
Minimax Off-Policy Evaluation for Multi-Armed Bandits	Jan 19, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Minimax-optimal trust-aware multi-armed bandits	Oct 4, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Minimax Policy for Heavy-tailed Bandits	Jul 20, 2020	Multi-Armed Bandits	—Unverified
Mitigating Bias in Adaptive Data Gathering via Differential Privacy	Jun 6, 2018	Multi-Armed Bandits	—Unverified
Modeling Attrition in Recommender Systems with Departing Bandits	Mar 25, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Modeling Human Decision-making in Generalized Gaussian Multi-armed Bandits	Jul 23, 2013	Bayesian InferenceDecision Making	—Unverified
Modelling Cournot Games as Multi-agent Multi-armed Bandits	Jan 1, 2022	Multi-Armed Bandits	—Unverified
Model selection for behavioral learning data and applications to contextual bandits	Feb 18, 2025	Model SelectionMulti-Armed Bandits	—Unverified
Model Selection for Generic Contextual Bandits	Jul 7, 2021	modelModel Selection	—Unverified
Model Selection in Contextual Stochastic Bandit Problems	Mar 3, 2020	modelModel Selection	—Unverified
Model Selection in Reinforcement Learning with General Function Approximations	Jul 6, 2022	Model SelectionMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning	Feb 11, 2024	Distributional Reinforcement LearningMulti-Armed Bandits	—Unverified
More Robust Doubly Robust Off-policy Evaluation	Feb 10, 2018	Multi-Armed BanditsOff-policy evaluation	—Unverified
Mortal Multi-Armed Bandits	Dec 1, 2008	Multi-Armed Bandits	—Unverified
Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities	Aug 20, 2024	Multi-Armed Bandits	—Unverified
Multi-Agent Multi-Armed Bandits with Limited Communication	Feb 10, 2021	Multi-Armed Bandits	—Unverified
Multi-agent Multi-armed Bandit with Fully Heavy-tailed Dynamics	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions	Nov 12, 2024	Multi-Armed Bandits	—Unverified
Multi-armed Bandit Learning for TDMA Transmission Slot Scheduling and Defragmentation for Improved Bandwidth Usage	Jan 14, 2023	Multi-Armed BanditsScheduling	—Unverified

Show:10 25 50

← PrevPage 33 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified