Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1262 papers

Title	Date	Tasks	Status	Hype
Linear Contextual Bandits with Interference	Sep 24, 2024	Causal InferenceDecision Making	—Unverified	0
Second Order Bounds for Contextual Bandits with Function Approximation	Sep 24, 2024	Multi-Armed Bandits	—Unverified	0
Designing an Interpretable Interface for Contextual Bandits	Sep 23, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Causal Feature Selection Method for Contextual Multi-Armed Bandits in Recommender System	Sep 20, 2024	feature selectionMulti-Armed Bandits	—Unverified	0
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features	Sep 13, 2024	Decision MakingFairness	—Unverified	0
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits	Sep 13, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization	Sep 13, 2024	Meta-LearningMulti-Armed Bandits	—Unverified	0
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified	0
Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified	0
Faster Q-Learning Algorithms for Restless Bandits	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified	0
Performance-Aware Self-Configurable Multi-Agent Networks: A Distributed Submodular Approach for Simultaneous Coordination and Network Design	Sep 2, 2024	Event DetectionMulti-Armed Bandits	CodeCode Available	0
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Representative Arm Identification: A fixed confidence approach to identify cluster representatives	Aug 26, 2024	Multi-Armed Bandits	—Unverified	0
Online Fair Division with Contextual Bandits	Aug 23, 2024	FairnessMulti-Armed Bandits	—Unverified	0
Dynamic Product Image Generation and Recommendation at Scale for Personalized E-commerce	Aug 22, 2024	Image GenerationMulti-Armed Bandits	—Unverified	0
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified	0
Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities	Aug 20, 2024	Multi-Armed Bandits	—Unverified	0
Contextual Bandits for Unbounded Context Distributions	Aug 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits	Aug 19, 2024	Multi-Armed BanditsQ-Learning	—Unverified	0
Reciprocal Learning	Aug 12, 2024	Active LearningMulti-Armed Bandits	—Unverified	0
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels	Aug 10, 2024	Knowledge TracingMulti-Armed Bandits	CodeCode Available	0
Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits	Aug 8, 2024	Exposure FairnessFairness	CodeCode Available	0
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents	Aug 6, 2024	Multi-Armed BanditsSensitivity	CodeCode Available	0
Empathic Responding for Digital Interpersonal Emotion Regulation via Content Recommendation	Aug 5, 2024	Multi-Armed Bandits	—Unverified	0
Online Learning for Autonomous Management of Intent-based 6G Networks	Jul 25, 2024	Efficient ExplorationManagement	—Unverified	0
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare	Jul 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	0
Satisficing Exploration for Deep Reinforcement Learning	Jul 16, 2024	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified	0
Open Problem: Tight Bounds for Kernelized Multi-Armed Bandits with Bernoulli Rewards	Jul 8, 2024	Multi-Armed Bandits	—Unverified	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Honor Among Bandits: No-Regret Learning for Online Fair Division	Jul 1, 2024	FairnessMulti-Armed Bandits	—Unverified	0
A Contextual Combinatorial Bandit Approach to Negotiation	Jun 30, 2024	Multi-Armed Bandits	—Unverified	0
Classical Bandit Algorithms for Entanglement Detection in Parameterized Qubit States	Jun 28, 2024	Multi-Armed Bandits	—Unverified	0
Jump Starting Bandits with LLM-Generated Prior Knowledge	Jun 27, 2024	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
EduQate: Generating Adaptive Curricula through RMABs in Education Settings	Jun 20, 2024	Multi-Armed BanditsQ-Learning	—Unverified	0
BEACON: Balancing Convenience and Nutrition in Meals With Long-Term Group Recommendations and Reasoning on Multimodal Recipes	Jun 19, 2024	Multi-Armed BanditsNutrition	—Unverified	0
Towards Bayesian Data Selection	Jun 18, 2024	Active LearningAdditive models	—Unverified	0
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified	0
An Adaptive Method for Contextual Stochastic Multi-armed Bandits with Rewards Generated by a Linear Dynamical System	Jun 14, 2024	Multi-Armed Bandits	—Unverified	0
Linear Contextual Bandits with Hybrid Payoff: Revisited	Jun 14, 2024	DiversityMulti-Armed Bandits	CodeCode Available	0
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified	0
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified	0
Asymptotically Optimal Regret for Black-Box Predict-then-Optimize	Jun 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified	0
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 4 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified