SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 1262 papers

Title	Date	Tasks	Status
Linear Contextual Bandits with Interference	Sep 24, 2024	Causal InferenceDecision Making	—Unverified
Second Order Bounds for Contextual Bandits with Function Approximation	Sep 24, 2024	Multi-Armed Bandits	—Unverified
Designing an Interpretable Interface for Contextual Bandits	Sep 23, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
Causal Feature Selection Method for Contextual Multi-Armed Bandits in Recommender System	Sep 20, 2024	feature selectionMulti-Armed Bandits	—Unverified
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features	Sep 13, 2024	Decision MakingFairness	—Unverified
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits	Sep 13, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization	Sep 13, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified
Faster Q-Learning Algorithms for Restless Bandits	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified
Performance-Aware Self-Configurable Multi-Agent Networks: A Distributed Submodular Approach for Simultaneous Coordination and Network Design	Sep 2, 2024	Event DetectionMulti-Armed Bandits	CodeCode Available
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Representative Arm Identification: A fixed confidence approach to identify cluster representatives	Aug 26, 2024	Multi-Armed Bandits	—Unverified
Online Fair Division with Contextual Bandits	Aug 23, 2024	FairnessMulti-Armed Bandits	—Unverified
Dynamic Product Image Generation and Recommendation at Scale for Personalized E-commerce	Aug 22, 2024	Image GenerationMulti-Armed Bandits	—Unverified
Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities	Aug 20, 2024	Multi-Armed Bandits	—Unverified
Contextual Bandits for Unbounded Context Distributions	Aug 19, 2024	Decision MakingMulti-Armed Bandits	—Unverified
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits	Aug 19, 2024	Multi-Armed BanditsQ-Learning	—Unverified
Reciprocal Learning	Aug 12, 2024	Active LearningMulti-Armed Bandits	—Unverified
Hierarchical Multi-Armed Bandits for the Concurrent Intelligent Tutoring of Concepts and Problems of Varying Difficulty Levels	Aug 10, 2024	Knowledge TracingMulti-Armed Bandits	CodeCode Available
Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits	Aug 8, 2024	Exposure FairnessFairness	CodeCode Available
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents	Aug 6, 2024	Multi-Armed BanditsSensitivity	CodeCode Available

Show:10 25 50

← PrevPage 7 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified