Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–575 of 1262 papers

Title	Date	Tasks	Status
Communication Efficient Distributed Learning for Kernelized Contextual Bandits	Jun 10, 2022	Multi-Armed Bandits	—Unverified
Conformal Off-Policy Prediction in Contextual Bandits	Jun 9, 2022	Conformal PredictionMulti-Armed Bandits	—Unverified
Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits	Jun 8, 2022	Decision MakingFairness	—Unverified
Neural Bandit with Arm Group Graph	Jun 8, 2022	Multi-Armed Bandits	—Unverified
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
A Simple and Optimal Policy Design with Safety against Heavy-Tailed Risk for Stochastic Bandits	Jun 7, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Group Meritocratic Fairness in Linear Contextual Bandits	Jun 7, 2022	FairnessMulti-Armed Bandits	CodeCode Available
Robust Pareto Set Identification with Contaminated Bandit Feedback	Jun 6, 2022	ManagementMulti-Armed Bandits	—Unverified
Asymptotic Instance-Optimal Algorithms for Interactive Decision Making	Jun 6, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Contextual Bandits with Knapsacks for a Conversion Model	Jun 1, 2022	modelMulti-Armed Bandits	—Unverified
Provable General Function Class Representation Learning in Multitask Bandits and MDPs	May 31, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Provably and Practically Efficient Neural Contextual Bandits	May 31, 2022	Multi-Armed Bandits	—Unverified
Online Meta-Learning in Adversarial Multi-Armed Bandits	May 31, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Optimistic Whittle Index Policy: Online Learning for Restless Bandits	May 30, 2022	Multi-Armed Bandits	CodeCode Available
Quantum Multi-Armed Bandits and Stochastic Linear Bandits Enjoy Logarithmic Regrets	May 30, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Federated Neural Bandits	May 28, 2022	Multi-Armed Bandits	CodeCode Available
Fairness and Welfare Quantification for Regret in Multi-Armed Bandits	May 27, 2022	FairnessMulti-Armed Bandits	—Unverified
Meta-Learning Adversarial Bandits	May 27, 2022	Meta-LearningMulti-Armed Bandits	—Unverified
Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits	May 27, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Exploration, Exploitation, and Engagement in Multi-Armed Bandits with Abandonment	May 26, 2022	Multi-Armed BanditsQ-Learning	—Unverified
Contextual Pandora's Box	May 26, 2022	Multi-Armed BanditsStochastic Optimization	—Unverified
Neural Contextual Bandits Based Dynamic Sensor Selection for Low-Power Body-Area Networks	May 24, 2022	Anomaly DetectionMulti-Armed Bandits	—Unverified
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs	May 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Falsification of Multiple Requirements for Cyber-Physical Systems Using Online Generative Adversarial Networks and Multi-Armed Bandits	May 23, 2022	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 23 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified