Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1262 papers

Title	Date	Tasks	Status	Hype
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems	Jul 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Contextual Bandits and Imitation Learning via Preference-Based Active Queries	Jul 24, 2023	Imitation LearningMulti-Armed Bandits	—Unverified	0
Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms	Jul 21, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Decentralized Smart Charging of Large-Scale EVs using Adaptive Multi-Agent Multi-Armed Bandits	Jul 20, 2023	FairnessMulti-Armed Bandits	—Unverified	0
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Adaptive Linear Estimating Equations	Jul 14, 2023	Multi-Armed Bandits	CodeCode Available	0
On Interpolating Experts and Multi-Armed Bandits	Jul 14, 2023	Multi-Armed Bandits	—Unverified	0
Tracking Most Significant Shifts in Nonparametric Contextual Bandits	Jul 11, 2023	Multi-Armed Bandits	—Unverified	0
SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification of Top-k Features	Jul 10, 2023	Feature ImportanceMulti-Armed Bandits	—Unverified	0
BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits	Jul 7, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization	Jul 5, 2023	Multi-Armed Bandits	—Unverified	0
Meta-Learning Adversarial Bandit Algorithms	Jul 5, 2023	Meta-LearningMulti-Armed Bandits	—Unverified	0
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified	0
Kernel ε-Greedy for Multi-Armed Bandits with Covariates	Jun 29, 2023	Multi-Armed Bandits	—Unverified	0
Pure exploration in multi-armed bandits with low rank structure using oblivious sampler	Jun 28, 2023	Multi-Armed Bandits	—Unverified	0
You Can Trade Your Experience in Distributed Multi-Agent Multi-Armed Bandits	Jun 19, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Multi-Fidelity Multi-Armed Bandits Revisited	Jun 13, 2023	Multi-Armed Bandits	—Unverified	0
Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits	Jun 13, 2023	Multi-Armed Bandits	—Unverified	0
Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals	Jun 12, 2023	Multi-Armed Bandits	CodeCode Available	0
Optimal Multitask Linear Regression and Contextual Bandits under Sparse Heterogeneity	Jun 9, 2023	Multi-Armed Banditsregression	—Unverified	0
Federated Linear Contextual Bandits with User-level Differential Privacy	Jun 8, 2023	Decision MakingMulti-Armed Bandits	—Unverified	0
Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits	Jun 3, 2023	Multi-Armed BanditsOpen-Ended Question Answering	CodeCode Available	0
Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards	Jun 1, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified	0
Representation-Driven Reinforcement Learning	May 31, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified	0
Competing for Shareable Arms in Multi-Player Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	CodeCode Available	1
Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits	May 30, 2023	Multi-Armed Bandits	—Unverified	0
Contextual Bandits with Budgeted Information Reveal	May 29, 2023	Multi-Armed Bandits	—Unverified	0
Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness	May 25, 2023	FairnessMulti-Armed Bandits	—Unverified	0
Meta-in-context learning in large language models	May 22, 2023	In-Context LearningMulti-Armed Bandits	CodeCode Available	0
Sequential Best-Arm Identification with Application to Brain-Computer Interface	May 17, 2023	Brain Computer InterfaceEEG	—Unverified	0
Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits	May 11, 2023	Multi-Armed Bandits	CodeCode Available	1
Efficient Training of Multi-task Combinarotial Neural Solver with Multi-armed Bandits	May 10, 2023	Combinatorial OptimizationDecoder	—Unverified	0
Neural Exploitation and Exploration of Contextual Bandits	May 5, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Reward Teaching for Federated Multi-armed Bandits	May 3, 2023	Multi-Armed Bandits	—Unverified	0
Stochastic Contextual Bandits with Graph-based Contexts	May 2, 2023	Multi-Armed Bandits	—Unverified	0
First- and Second-Order Bounds for Adversarial Linear Contextual Bandits	May 1, 2023	Multi-Armed Bandits	—Unverified	0
Kullback-Leibler Maillard Sampling for Multi-armed Bandits with Bounded Rewards	Apr 28, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Quantum Natural Policy Gradients: Towards Sample-Efficient Reinforcement Learning	Apr 26, 2023	Multi-Armed Banditsreinforcement-learning	CodeCode Available	0
Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian rewards	Apr 26, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Optimal Activation of Halting Multi-Armed Bandit Models	Apr 20, 2023	Multi-Armed Bandits	—Unverified	0
A Field Test of Bandit Algorithms for Recommendations: Understanding the Validity of Assumptions on Human Preferences in Multi-armed Bandits	Apr 16, 2023	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
Learning Personalized Decision Support Policies	Apr 13, 2023	Language ModellingLarge Language Model	—Unverified	0
SmartChoices: Augmenting Software with Learned Implementations	Apr 12, 2023	Multi-Armed BanditsPhilosophy	—Unverified	0
BanditQ: Fair Bandits with Guaranteed Rewards	Apr 11, 2023	Multi-Armed Bandits	—Unverified	0
Full Gradient Deep Reinforcement Learning for Average-Reward Criterion	Apr 7, 2023	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified	0
Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms	Apr 6, 2023	Multi-Armed BanditsThompson Sampling	—Unverified	0
Federated Learning for Heterogeneous Bandits with Unobserved Contexts	Mar 29, 2023	Federated LearningMulti-Armed Bandits	—Unverified	0
Adaptive Endpointing with Deep Contextual Multi-armed Bandits	Mar 23, 2023	Multi-Armed Bandits	—Unverified	0
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	—Unverified	0

Show:10 25 50

← PrevPage 8 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified