Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 1262 papers

Title	Date	Tasks	Status
Meta-Learning surrogate models for sequential decision making	Mar 28, 2019	Bayesian OptimisationDecision Making	—Unverified
Meta-Prompt Optimization for LLM-Based Sequential Decision Making	Feb 2, 2025	Bayesian OptimizationDecision Making	—Unverified
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
Meta-Thompson Sampling	Feb 11, 2021	Efficient ExplorationMeta-Learning	—Unverified
Metric-Free Individual Fairness with Cooperative Contextual Bandits	Nov 13, 2020	Decision MakingFairness	—Unverified
Minimax Off-Policy Evaluation for Multi-Armed Bandits	Jan 19, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified
Minimax-optimal trust-aware multi-armed bandits	Oct 4, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Minimax Policy for Heavy-tailed Bandits	Jul 20, 2020	Multi-Armed Bandits	—Unverified
Mitigating Bias in Adaptive Data Gathering via Differential Privacy	Jun 6, 2018	Multi-Armed Bandits	—Unverified
Modeling Attrition in Recommender Systems with Departing Bandits	Mar 25, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Modeling Human Decision-making in Generalized Gaussian Multi-armed Bandits	Jul 23, 2013	Bayesian InferenceDecision Making	—Unverified
Modelling Cournot Games as Multi-agent Multi-armed Bandits	Jan 1, 2022	Multi-Armed Bandits	—Unverified
Model selection for behavioral learning data and applications to contextual bandits	Feb 18, 2025	Model SelectionMulti-Armed Bandits	—Unverified
Model Selection for Generic Contextual Bandits	Jul 7, 2021	modelModel Selection	—Unverified
Model Selection in Contextual Stochastic Bandit Problems	Mar 3, 2020	modelModel Selection	—Unverified
Model Selection in Reinforcement Learning with General Function Approximations	Jul 6, 2022	Model SelectionMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning	Feb 11, 2024	Distributional Reinforcement LearningMulti-Armed Bandits	—Unverified
More Robust Doubly Robust Off-policy Evaluation	Feb 10, 2018	Multi-Armed BanditsOff-policy evaluation	—Unverified
Mortal Multi-Armed Bandits	Dec 1, 2008	Multi-Armed Bandits	—Unverified
Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities	Aug 20, 2024	Multi-Armed Bandits	—Unverified
Multi-Agent Multi-Armed Bandits with Limited Communication	Feb 10, 2021	Multi-Armed Bandits	—Unverified
Multi-agent Multi-armed Bandit with Fully Heavy-tailed Dynamics	Jan 31, 2025	Multi-Armed Bandits	—Unverified
Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions	Nov 12, 2024	Multi-Armed Bandits	—Unverified
Multi-armed Bandit Learning for TDMA Transmission Slot Scheduling and Defragmentation for Improved Bandwidth Usage	Jan 14, 2023	Multi-Armed BanditsScheduling	—Unverified
Multi-Armed Bandits and Quantum Channel Oracles	Jan 20, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified
Multi-armed Bandits: Competing with Optimal Sequences	Dec 1, 2016	Decision MakingMulti-Armed Bandits	—Unverified
Multi-Armed Bandits for Correlated Markovian Environments with Smoothed Reward Feedback	Mar 11, 2018	Multi-Armed BanditsQ-Learning	—Unverified
Multi-Armed Bandits for Intelligent Tutoring Systems	Oct 11, 2013	Multi-Armed Bandits	—Unverified
Multi-armed Bandits for Link Configuration in Millimeter-wave Networks	Feb 2, 2022	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits for Minesweeper: Profiting from Exploration-Exploitation Synergy	Jul 25, 2020	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits in Metric Spaces	Sep 29, 2008	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits Meet Large Language Models	May 19, 2025	Decision MakingMulti-Armed Bandits	—Unverified
Multi-armed bandits on implicit metric spaces	Dec 1, 2011	General ClassificationMulti-Armed Bandits	—Unverified
Multi-Armed Bandits on Partially Revealed Unit Interval Graphs	Feb 12, 2018	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Abstention	Feb 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Multi-armed Bandits with Application to 5G Small Cells	Oct 2, 2015	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Bounded Arm-Memory: Near-Optimal Guarantees for Best-Arm Identification and Regret Minimization	Dec 1, 2021	Multi-Armed BanditsOpen-Ended Question Answering	—Unverified
Multi-Armed Bandits with Censored Consumption of Resources	Nov 2, 2020	Multi-Armed Bandits	—Unverified
Multi-armed Bandits with Compensation	Nov 5, 2018	Multi-Armed Bandits	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-Armed Bandits with Dependent Arms	Oct 13, 2020	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards	Mar 1, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Multi-Armed Bandits with Interference	Feb 2, 2024	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Local Differential Privacy	Jul 6, 2020	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits With Machine Learning-Generated Surrogate Rewards	Jun 20, 2025	Decision Making Under UncertaintyMulti-Armed Bandits	—Unverified
Multi-Armed Bandits with Metric Movement Costs	Oct 24, 2017	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Self-Information Rewards	Sep 6, 2022	Multi-Armed Bandits	—Unverified
Multi-Fidelity Multi-Armed Bandits Revisited	Jun 13, 2023	Multi-Armed Bandits	—Unverified
Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness	Jan 20, 2025	FairnessMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 17 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified