Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 876–900 of 1262 papers

Title	Date	Tasks	Status	Hype
Gaussian Gated Linear Networks	Jun 10, 2020	DenoisingDensity Estimation	CodeCode Available	0
Distributionally Robust Batch Contextual Bandits	Jun 10, 2020	Multi-Armed Bandits	—Unverified	0
Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition	Jun 10, 2020	Multi-Armed Bandits	—Unverified	0
Online Learning in Iterated Prisoner's Dilemma to Mimic Human Behavior	Jun 9, 2020	Multi-Armed Banditsreinforcement-learning	CodeCode Available	0
Meta-Learning Bandit Policies by Gradient Ascent	Jun 9, 2020	Meta-LearningMulti-Armed Bandits	—Unverified	0
Contextual Bandits with Side-Observations	Jun 6, 2020	Multi-Armed Bandits	—Unverified	0
Concurrent Decentralized Channel Allocation and Access Point Selection using Multi-Armed Bandits in multi BSS WLANs	Jun 5, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
(Locally) Differentially Private Combinatorial Semi-Bandits	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving	—Unverified	0
Locally Differentially Private (Contextual) Bandits Learning	Jun 1, 2020	Multi-Armed BanditsPrivacy Preserving Deep Learning	CodeCode Available	0
To update or not to update? Delayed Nonparametric Bandits with Randomized Allocation	May 26, 2020	Multi-Armed Bandits	—Unverified	0
Greedy Algorithm almost Dominates in Smoothed Contextual Bandits	May 19, 2020	DiversityMulti-Armed Bandits	—Unverified	0
Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits and RL	May 10, 2020	Decision MakingLifelong learning	CodeCode Available	1
Neural Network Retraining for Model Serving	Apr 29, 2020	modelMulti-Armed Bandits	—Unverified	0
Learning to Rank in the Position Based Model with Bandit Feedback	Apr 27, 2020	Learning-To-RankMulti-Armed Bandits	—Unverified	0
Thompson Sampling for Linearly Constrained Bandits	Apr 20, 2020	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Sequential Batch Learning in Finite-Action Linear Contextual Bandits	Apr 14, 2020	Decision MakingMulti-Armed Bandits	—Unverified	0
Power Constrained Bandits	Apr 13, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available	0
Exploration with Limited Memory: Streaming Algorithms for Coin Tossing, Noisy Comparisons, and Multi-Armed Bandits	Apr 9, 2020	Multi-Armed Bandits	—Unverified	0
Hawkes Process Multi-armed Bandits for Disaster Search and Rescue	Apr 3, 2020	Multi-Armed Bandits	—Unverified	0
Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation	Apr 2, 2020	Multi-Armed Bandits	CodeCode Available	1
Bypassing the Monster: A Faster and Simpler Optimal Algorithm for Contextual Bandits under Realizability	Mar 28, 2020	Multi-Armed Banditsregression	—Unverified	0
Optimal No-regret Learning in Repeated First-price Auctions	Mar 22, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0
Self-Supervised Contextual Bandits in Computer Vision	Mar 18, 2020	ClusteringColorization	—Unverified	0
Learning and Fairness in Energy Harvesting: A Maximin Multi-Armed Bandits Approach	Mar 13, 2020	FairnessMulti-Armed Bandits	—Unverified	0
Delay-Adaptive Learning in Generalized Linear Contextual Bandits	Mar 11, 2020	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 36 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified