Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 1262 papers

Title	Date	Tasks	Status
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems	Jul 24, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits and Imitation Learning via Preference-Based Active Queries	Jul 24, 2023	Imitation LearningMulti-Armed Bandits	—Unverified
Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms	Jul 21, 2023	Multi-Armed BanditsRecommendation Systems	—Unverified
Decentralized Smart Charging of Large-Scale EVs using Adaptive Multi-Agent Multi-Armed Bandits	Jul 20, 2023	FairnessMulti-Armed Bandits	—Unverified
VITS : Variational Inference Thompson Sampling for contextual bandits	Jul 19, 2023	Multi-Armed BanditsThompson Sampling	CodeCode Available
Adaptive Linear Estimating Equations	Jul 14, 2023	Multi-Armed Bandits	CodeCode Available
On Interpolating Experts and Multi-Armed Bandits	Jul 14, 2023	Multi-Armed Bandits	—Unverified
Tracking Most Significant Shifts in Nonparametric Contextual Bandits	Jul 11, 2023	Multi-Armed Bandits	—Unverified
SHAP@k:Efficient and Probably Approximately Correct (PAC) Identification of Top-k Features	Jul 10, 2023	Feature ImportanceMulti-Armed Bandits	—Unverified
BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits	Jul 7, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization	Jul 5, 2023	Multi-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandit Algorithms	Jul 5, 2023	Meta-LearningMulti-Armed Bandits	—Unverified
Thompson sampling for improved exploration in GFlowNets	Jun 30, 2023	Active LearningDecision Making	—Unverified
Kernel ε-Greedy for Multi-Armed Bandits with Covariates	Jun 29, 2023	Multi-Armed Bandits	—Unverified
Pure exploration in multi-armed bandits with low rank structure using oblivious sampler	Jun 28, 2023	Multi-Armed Bandits	—Unverified
You Can Trade Your Experience in Distributed Multi-Agent Multi-Armed Bandits	Jun 19, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning	Jun 15, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Multi-Fidelity Multi-Armed Bandits Revisited	Jun 13, 2023	Multi-Armed Bandits	—Unverified
Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits	Jun 13, 2023	Multi-Armed Bandits	—Unverified
Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals	Jun 12, 2023	Multi-Armed Bandits	CodeCode Available
Optimal Multitask Linear Regression and Contextual Bandits under Sparse Heterogeneity	Jun 9, 2023	Multi-Armed Banditsregression	—Unverified
Federated Linear Contextual Bandits with User-level Differential Privacy	Jun 8, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits	Jun 3, 2023	Multi-Armed BanditsOpen-Ended Question Answering	CodeCode Available
Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards	Jun 1, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified
Representation-Driven Reinforcement Learning	May 31, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 15 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified