Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1262 papers

Title	Date	Tasks	Status
Communication Efficient Distributed Learning for Kernelized Contextual Bandits	Jun 10, 2022	Multi-Armed Bandits	—Unverified
Conformal Off-Policy Prediction in Contextual Bandits	Jun 9, 2022	Conformal PredictionMulti-Armed Bandits	—Unverified
Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits	Jun 8, 2022	Decision MakingFairness	—Unverified
Neural Bandit with Arm Group Graph	Jun 8, 2022	Multi-Armed Bandits	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Group Meritocratic Fairness in Linear Contextual Bandits	Jun 7, 2022	FairnessMulti-Armed Bandits	CodeCode Available
Robust Pareto Set Identification with Contaminated Bandit Feedback	Jun 6, 2022	ManagementMulti-Armed Bandits	—Unverified
Asymptotic Instance-Optimal Algorithms for Interactive Decision Making	Jun 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits with Knapsacks for a Conversion Model	Jun 1, 2022	modelMulti-Armed Bandits	—Unverified
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Online Meta-Learning in Adversarial Multi-Armed Bandits	May 31, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Provably and Practically Efficient Neural Contextual Bandits	May 31, 2022	Multi-Armed Bandits	—Unverified
Optimistic Whittle Index Policy: Online Learning for Restless Bandits	May 30, 2022	Multi-Armed Bandits	CodeCode Available
Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets	May 30, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Federated Neural Bandits	May 28, 2022	Multi-Armed Bandits	CodeCode Available
Fairness and Welfare Quantification for Regret in Multi-Armed Bandits	May 27, 2022	FairnessMulti-Armed Bandits	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Exploration, Exploitation, and Engagement in Multi-Armed Bandits with Abandonment	May 26, 2022	Multi-Armed BanditsQ-Learning	—Unverified
Contextual Pandora's Box	May 26, 2022	Multi-Armed BanditsStochastic Optimization	—Unverified
Neural Contextual Bandits Based Dynamic Sensor Selection for Low-Power Body-Area Networks	May 24, 2022	Anomaly DetectionMulti-Armed Bandits	—Unverified
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs	May 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Falsification of Multiple Requirements for Cyber-Physical Systems Using Online Generative Adversarial Networks and Multi-Armed Bandits	May 23, 2022	Multi-Armed Bandits	—Unverified
Contextual Information-Directed Sampling	May 22, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Pessimism for Offline Linear Contextual Bandits using _p Confidence Sets	May 21, 2022	Multi-Armed Bandits	—Unverified
Stability Enforced Bandit Algorithms for Channel Selection in Remote State Estimation of Gauss-Markov Processes	May 20, 2022	channel selectionMulti-Armed Bandits	—Unverified
Breaking the T Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits	May 19, 2022	Multi-Armed Banditsparameter estimation	—Unverified
Multi-Armed Bandits in Brain-Computer Interfaces	May 19, 2022	Multi-Armed Bandits	CodeCode Available
Slowly Changing Adversarial Bandit Algorithms are Efficient for Discounted MDPs	May 18, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization	May 17, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses	May 16, 2022	Multi-Armed Bandits	—Unverified
Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial Corruptions	May 13, 2022	Multi-Armed Bandits	—Unverified
A Survey of Risk-Aware Multi-Armed Bandits	May 12, 2022	Multi-Armed BanditsPortfolio Optimization	—Unverified
Federated Multi-Armed Bandits Under Byzantine Attacks	May 9, 2022	Data PoisoningDecision Making	—Unverified
Selectively Contextual Bandits	May 9, 2022	Multi-Armed Bandits	—Unverified
Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms: Learning Algorithms & Applications	Apr 28, 2022	Edge-computingMulti-Armed Bandits	—Unverified
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available
Rate-Constrained Remote Contextual Bandits	Apr 26, 2022	MarketingMulti-Armed Bandits	—Unverified
Thompson Sampling for Bandit Learning in Matching Markets	Apr 26, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Worst-case Performance of Greedy Policies in Bandits with Imperfect Context Observations	Apr 10, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by a Linear Dynamical System	Apr 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk	Apr 1, 2022	Multi-Armed Bandits	—Unverified
Flexible and Efficient Contextual Bandits with Heterogeneous Treatment Effect Oracles	Mar 30, 2022	Decision MakingHeterogeneous Treatment Effect Estimation	—Unverified
Best Arm Identification in Restless Markov Multi-Armed Bandits	Mar 29, 2022	Multi-Armed Bandits	—Unverified
On Kernelized Multi-Armed Bandits with Constraints	Mar 29, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Modeling Attrition in Recommender Systems with Departing Bandits	Mar 25, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking	Mar 24, 2022	Bayesian OptimizationDecision Making	CodeCode Available
Efficient Algorithms for Extreme Bandits	Mar 21, 2022	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 12 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified