SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 1262 papers

Title	Date	Tasks	Status
An Empirical Evaluation of Federated Contextual Bandit Algorithms	Mar 17, 2023	Federated LearningMulti-Armed Bandits	—Unverified
On the Interplay Between Misspecification and Sub-optimality Gap in Linear Contextual Bandits	Mar 16, 2023	Multi-Armed Bandits	—Unverified
Only Pay for What Is Uncertain: Variance-Adaptive Thompson Sampling	Mar 16, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Data Dependent Regret Guarantees Against General Comparators for Full or Bandit Feedback	Mar 12, 2023	Multi-Armed Bandits	—Unverified
Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks	Mar 9, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
Queue Scheduling with Adversarial Bandit Learning	Mar 3, 2023	Multi-Armed BanditsScheduling	—Unverified
Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits	Mar 1, 2023	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Fairness for Workers Who Pull the Arms: An Index Based Policy for Allocation of Restless Bandit Tasks	Mar 1, 2023	FairnessMulti-Armed Bandits	—Unverified
Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards	Mar 1, 2023	Decision MakingMulti-Armed Bandits	—Unverified
Approximately Stationary Bandits with Knapsacks	Feb 28, 2023	Multi-Armed Bandits	—Unverified
The Choice of Noninformative Priors for Thompson Sampling in Multiparameter Bandit Models	Feb 28, 2023	Multi-Armed BanditsThompson Sampling	—Unverified
Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms	Feb 27, 2023	Multi-Armed Bandits	—Unverified
On Differentially Private Federated Linear Contextual Bandits	Feb 27, 2023	Multi-Armed Bandits	—Unverified
Kernel Conditional Moment Constraints for Confounding Robust Inference	Feb 26, 2023	Multi-Armed BanditsSensitivity	CodeCode Available
Active Velocity Estimation using Light Curtains via Self-Supervised Multi-Armed Bandits	Feb 24, 2023	Multi-Armed BanditsNavigate	—Unverified
Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old Data in Nonstationary Environments	Feb 23, 2023	Multi-Armed Banditsregression	—Unverified
Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency	Feb 21, 2023	Computational EfficiencyDecision Making	—Unverified
A Blackbox Approach to Best of Both Worlds in Bandits and Beyond	Feb 20, 2023	Multi-Armed Bandits	—Unverified
Estimating Optimal Policy Value in General Linear Contextual Bandits	Feb 19, 2023	Model SelectionMulti-Armed Bandits	—Unverified
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits	Feb 18, 2023	Hyperparameter OptimizationMulti-Armed Bandits	—Unverified
Improving Fairness in Adaptive Social Exergames via Shapley Bandits	Feb 18, 2023	FairnessMulti-Armed Bandits	—Unverified
Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond	Feb 18, 2023	Multi-Armed Bandits	—Unverified
Practical Contextual Bandits with Feedback Graphs	Feb 17, 2023	Multi-Armed Banditsregression	—Unverified
Infinite Action Contextual Bandits with Reusable Data Exhaust	Feb 16, 2023	Model SelectionMulti-Armed Bandits	CodeCode Available
Genetic multi-armed bandits: a reinforcement learning approach for discrete optimization via simulation	Feb 15, 2023	Multi-Armed BanditsStochastic Optimization	—Unverified

Show:10 25 50

← PrevPage 18 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified