Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1262 papers

Title	Date	Tasks	Status	Hype
Achieving the Pareto Frontier of Regret Minimization and Best Arm Identification in Multi-Armed Bandits	Oct 16, 2021	Multi-Armed Bandits	—Unverified	0
Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits	Oct 15, 2021	Multi-Armed Bandits	—Unverified	0
Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits	Oct 13, 2021	Machine TranslationMulti-Armed Bandits	—Unverified	0
Query-Reward Tradeoffs in Multi-Armed Bandits	Oct 12, 2021	Multi-Armed Bandits	—Unverified	0
Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of Information Selection	Oct 8, 2021	Multi-Armed Bandits	—Unverified	0
A Model Selection Approach for Corruption Robust Reinforcement Learning	Oct 7, 2021	Model SelectionMulti-Armed Bandits	—Unverified	0
EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits	Oct 7, 2021	Multi-Armed BanditsThompson Sampling	CodeCode Available	1
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified	0
Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed Bandits	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Batched Thompson Sampling	Oct 1, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Adapting Bandit Algorithms for Settings with Sequentially Available Arms	Sep 30, 2021	ManagementMulti-Armed Bandits	—Unverified	0
Causal Contextual Bandits with Targeted Interventions	Sep 29, 2021	Multi-Armed Bandits	—Unverified	0
Regularized-OFU: an efficient algorithm for general contextual bandit with optimization oracles	Sep 29, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Expected Improvement-based Contextual Bandits	Sep 29, 2021	Bayesian OptimizationMulti-Armed Bandits	—Unverified	0
Batched Bandits with Crowd Externalities	Sep 29, 2021	Multi-Armed Bandits	—Unverified	0
Risk averse non-stationary multi-armed bandits	Sep 28, 2021	Multi-Armed Bandits	—Unverified	0
Robust Generalization of Quadratic Neural Networks via Function Identification	Sep 22, 2021	Generalization BoundsLearning Theory	—Unverified	0
Generalized Translation and Scale Invariant Online Algorithm for Adversarial Multi-Armed Bandits	Sep 19, 2021	Multi-Armed BanditsTranslation	—Unverified	0
Field Study in Deploying Restless Multi-Armed Bandits: Assisting Non-Profits in Improving Maternal and Child Health	Sep 16, 2021	Multi-Armed Bandits	—Unverified	0
Estimation of Warfarin Dosage with Reinforcement Learning	Sep 15, 2021	Multi-Armed Banditsreinforcement-learning	CodeCode Available	0
Exploiting Heterogeneity in Robust Federated Best-Arm Identification	Sep 13, 2021	Multi-Armed Bandits	—Unverified	0
Improved Algorithms for Misspecified Linear Markov Decision Processes	Sep 12, 2021	Multi-Armed Bandits	—Unverified	0
Best-Arm Identification in Correlated Multi-Armed Bandits	Sep 10, 2021	Multi-Armed Bandits	—Unverified	0
Online Learning for Cooperative Multi-Player Multi-Armed Bandits	Sep 7, 2021	Multi-Armed Bandits	—Unverified	0
Max-Utility Based Arm Selection Strategy For Sequential Query Recommendations	Aug 31, 2021	Multi-Armed Bandits	—Unverified	0
No DBA? No regret! Multi-armed bandits for index tuning of analytical and HTAP workloads with provable guarantees	Aug 23, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified	0
Batched Thompson Sampling for Multi-Armed Bandits	Aug 15, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models	Aug 13, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Regret Analysis of Learning-Based MPC with Partially-Unknown Cost Function	Aug 4, 2021	Multi-Armed Bandits	—Unverified	0
Maximizing and Satisficing in Multi-armed Bandits with Graph Information	Aug 2, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	0
Indexability and Rollout Policy for Multi-State Partially Observable Restless Bandits	Jul 30, 2021	Multi-Armed BanditsRecommendation Systems	—Unverified	0
Combining Online Learning and Offline Learning for Contextual Bandits with Deficient Support	Jul 24, 2021	Multi-Armed Bandits	—Unverified	0
Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits	Jul 23, 2021	Multi-Armed Bandits	CodeCode Available	0
From Predictions to Decisions: The Importance of Joint Predictive Distributions	Jul 20, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
An Analysis of Reinforcement Learning for Malaria Control	Jul 19, 2021	Multi-Armed BanditsOpenAI Gym	—Unverified	0
GuideBoot: Guided Bootstrap for Deep Contextual Bandits	Jul 18, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Inverse Contextual Bandits: Learning How Behavior Evolves over Time	Jul 13, 2021	BenchmarkingDecision Making	CodeCode Available	0
Adapting to Misspecification in Contextual Bandits	Jul 12, 2021	Multi-Armed Banditsregression	—Unverified	0
Model Selection for Generic Contextual Bandits	Jul 7, 2021	modelModel Selection	—Unverified	0
Neural Contextual Bandits without Regret	Jul 7, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available	0
Efficient First-Order Contextual Bandits: Prediction, Allocation, and Triangular Discrimination	Jul 5, 2021	Decision MakingMulti-Armed Bandits	—Unverified	0
Dueling Bandits with Adversarial Sleeping	Jul 5, 2021	ManagementMulti-Armed Bandits	—Unverified	0
Restless and Uncertain: Robust Policies for Restless Bandits via Deep Multi-Agent Reinforcement Learning	Jul 4, 2021	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0
Bayesian decision-making under misspecified priors with applications to meta-learning	Jul 3, 2021	Decision MakingMeta-Learning	—Unverified	0
Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual Bandit	Jun 29, 2021	Multi-Armed Bandits	—Unverified	0
Knowledge Infused Policy Gradients with Upper Confidence Bound for Relational Bandits	Jun 25, 2021	DescriptiveMulti-Armed Bandits	—Unverified	0
Multi-player Multi-armed Bandits with Collision-Dependent Reward Distributions	Jun 25, 2021	Multi-Armed Bandits	—Unverified	0
Random Effect Bandits	Jun 23, 2021	Multi-Armed BanditsThompson Sampling	—Unverified	0
Q-Learning Lagrange Policies for Multi-Action Restless Bandits	Jun 22, 2021	Multi-Armed BanditsQ-Learning	CodeCode Available	0
A Reduction-Based Framework for Conservative Bandits and Reinforcement Learning	Jun 22, 2021	Multi-Armed Banditsreinforcement-learning	—Unverified	0

Show:10 25 50

← PrevPage 14 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified