Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–825 of 1262 papers

Title	Date	Tasks	Status
Finding All -Good Arms in Stochastic Bandits	Dec 1, 2020	AllMulti-Armed Bandits	—Unverified
A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit	Nov 28, 2020	Decision MakingMulti-Armed Bandits	—Unverified
Resonance: Replacing Software Constants with Context-Aware Models in Real-time Communication	Nov 23, 2020	FrictionMulti-Armed Bandits	—Unverified
Fully Gap-Dependent Bounds for Multinomial Logit Bandit	Nov 19, 2020	Multi-Armed Bandits	—Unverified
A New Bandit Setting Balancing Information from State Evolution and Corrupted Context	Nov 16, 2020	Decision MakingEfficient Exploration	CodeCode Available
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Metric-Free Individual Fairness with Cooperative Contextual Bandits	Nov 13, 2020	Decision MakingFairness	—Unverified
Improving Offline Contextual Bandits with Distributional Robustness	Nov 13, 2020	counterfactualMulti-Armed Bandits	—Unverified
Active Reinforcement Learning: Observing Rewards at a Cost	Nov 13, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Asymptotic Convergence of Thompson Sampling	Nov 8, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Multi-armed Bandits with Cost Subsidy	Nov 3, 2020	Multi-Armed BanditsThompson Sampling	—Unverified
Towards Fundamental Limits of Multi-armed Bandits with Random Walk Feedback	Nov 3, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
On No-Sensing Adversarial Multi-player Multi-armed Bandits with Collision Communications	Nov 2, 2020	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Censored Consumption of Resources	Nov 2, 2020	Multi-Armed Bandits	—Unverified
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism	Oct 31, 2020	Distributed ComputingMulti-Armed Bandits	—Unverified
Learning to Actively Learn: A Robust Approach	Oct 29, 2020	Active LearningMeta-Learning	—Unverified
Tractable contextual bandits beyond realizability	Oct 25, 2020	Multi-Armed Bandits	—Unverified
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards	Oct 24, 2020	Multi-Armed Bandits	—Unverified
Online Semi-Supervised Learning with Bandit Feedback	Oct 23, 2020	ImputationMulti-Armed Bandits	—Unverified
Online Algorithm for Unsupervised Sequential Selection with Contextual Information	Oct 23, 2020	Multi-Armed Bandits	—Unverified
Quantile Bandits for Best Arms Identification	Oct 22, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Achieving User-Side Fairness in Contextual Bandits	Oct 22, 2020	FairnessMulti-Armed Bandits	—Unverified
DBA bandits: Self-driving index tuning under ad-hoc, analytical workloads with safety guarantees	Oct 19, 2020	AttributeDecision Making	—Unverified
Stochastic Bandits with Vector Losses: Minimizing ^-Norm of Relative Losses	Oct 15, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Asymptotic Randomised Control with applications to bandits	Oct 14, 2020	ARCMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 33 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified