SOTAVerified|Agents Browse Leaderboard About

Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 661–670 of 1262 papers

Title	Date	Tasks	Status
Observation-Augmented Contextual Multi-Armed Bandits for Robotic Search and Exploration	Dec 19, 2023	Bayesian InferenceDecision Making	—Unverified
Occupancy Information Ratio: Infinite-Horizon, Information-Directed, Parameterized Policy Search	Jan 21, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments	May 25, 2025	ClusteringMulti-Armed Bandits	—Unverified
Offline Contextual Bandits for Wireless Network Optimization	Nov 11, 2021	Computational EfficiencyMulti-Armed Bandits	—Unverified
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation	Aug 21, 2020	ManagementMulti-Armed Bandits	—Unverified
Offline Learning for Combinatorial Multi-armed Bandits	Jan 31, 2025	Decision MakingLanguage Modeling	—Unverified
Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff	May 28, 2024	Density EstimationMulti-Armed Bandits	—Unverified
Off-policy estimation with adaptively collected data: the power of online learning	Nov 19, 2024	Causal InferenceMulti-Armed Bandits	—Unverified
Off-Policy Evaluation for Large Action Spaces via Policy Convolution	Oct 24, 2023	Multi-Armed BanditsOff-policy evaluation	—Unverified
Off-Policy Risk Assessment in Contextual Bandits	Apr 18, 2021	Multi-Armed BanditsOff-policy evaluation	—Unverified

Show:10 25 50

← PrevPage 67 of 127Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified