SOTAVerified|Agents Browse Leaderboard About Blog

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1191–1200 of 1262 papers

Title	Date	Tasks	Status
Marginal Density Ratio for Off-Policy Evaluation in Contextual Bandits	Dec 3, 2023	Causal InferenceMulti-Armed Bandits	CodeCode Available
Master-slave Deep Architecture for Top-K Multi-armed Bandits with Non-linear Bandit Feedback and Diversity Constraints	Aug 24, 2023	DiversityMulti-Armed Bandits	CodeCode Available
Subgaussian and Differentiable Importance Sampling for Off-Policy Evaluation and Learning	Dec 1, 2021	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Bayesian Design Principles for Frequentist Sequential Learning	Oct 1, 2023	Multi-Armed Banditsreinforcement-learning	CodeCode Available
On Private Online Convex Optimization: Optimal Algorithms in _p-Geometry and High Dimensional Contextual Bandits	Jun 16, 2022	Multi-Armed Bandits	CodeCode Available
Piecewise-Stationary Multi-Objective Multi-Armed Bandit with Application to Joint Communications and Sensing	Feb 10, 2023	Change DetectionMulti-Armed Bandits	CodeCode Available
Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity	Apr 10, 2024	Decision MakingMeta Reinforcement Learning	CodeCode Available
Thompson Sampling for Multinomial Logit Contextual Bandits	Dec 1, 2019	Multi-Armed BanditsThompson Sampling	CodeCode Available
Sequential Learning of the Pareto Front for Multi-objective Bandits	Jan 29, 2025	Multi-Armed Bandits	CodeCode Available
Medoids in almost linear time via multi-armed bandits	Nov 2, 2017	Multi-Armed Bandits	CodeCode Available

Show:10 25 50

← PrevPage 120 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified