SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–160 of 1262 papers

Title	Date	Tasks	Status
Linear Contextual Bandits with Interference	Sep 24, 2024	Causal InferenceDecision Making	—Unverified
Second Order Bounds for Contextual Bandits with Function Approximation	Sep 24, 2024	Multi-Armed Bandits	—Unverified
Designing an Interpretable Interface for Contextual Bandits	Sep 23, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
Causal Feature Selection Method for Contextual Multi-Armed Bandits in Recommender System	Sep 20, 2024	feature selectionMulti-Armed Bandits	—Unverified
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features	Sep 13, 2024	Decision MakingFairness	—Unverified
Batch Ensemble for Variance Dependent Regret in Stochastic Bandits	Sep 13, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization	Sep 13, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified
Faster Q-Learning Algorithms for Restless Bandits	Sep 6, 2024	Multi-Armed BanditsQ-Learning	—Unverified

Show:10 25 50

← PrevPage 16 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified