Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1076–1100 of 1262 papers

Title	Date	Tasks	Status
Using Subjective Logic to Estimate Uncertainty in Multi-Armed Bandit Problems	Aug 17, 2020	Decision MakingMulti-Armed Bandits	CodeCode Available
Maximizing and Satisficing in Multi-armed Bandits with Graph Information	Aug 2, 2021	Decision MakingMulti-Armed Bandits	CodeCode Available
Combinatorial Multi-armed Bandits for Resource Allocation	May 10, 2021	Multi-Armed Bandits	CodeCode Available
Empirical Likelihood for Contextual Bandits	Jun 7, 2019	Multi-Armed Bandits	CodeCode Available
Online SuBmodular + SuPermodular (BP) Maximization with Bandit Feedback	Jul 7, 2022	Computational EfficiencyMovie Recommendation	CodeCode Available
Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning	Jun 9, 2019	Multi-Armed BanditsOff-policy evaluation	CodeCode Available
Introduction to Multi-Armed Bandits	Apr 15, 2019	Multi-Armed Bandits	CodeCode Available
Invariant Policy Learning: A Causal Perspective	Jun 1, 2021	Multi-Armed BanditsRecommendation Systems	CodeCode Available
Equal Opportunity in Online Classification with Partial Feedback	Feb 6, 2019	ClassificationDecision Making Under Uncertainty	CodeCode Available
Inverse Contextual Bandits: Learning How Behavior Evolves over Time	Jul 13, 2021	BenchmarkingDecision Making	CodeCode Available
An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits	Nov 9, 2023	Causal InferenceExperimental Design	CodeCode Available
Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents	Aug 6, 2024	Multi-Armed BanditsSensitivity	CodeCode Available
Information-Directed Selection for Top-Two Algorithms	May 24, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks	Mar 9, 2023	Decision MakingMulti-Armed Bandits	CodeCode Available
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health	Dec 11, 2024	Multi-Armed Bandits	CodeCode Available
Estimation of Warfarin Dosage with Reinforcement Learning	Sep 15, 2021	Multi-Armed Banditsreinforcement-learning	CodeCode Available
Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations	Jan 31, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available
Model selection for contextual bandits	Jun 3, 2019	modelModel Selection	CodeCode Available
Best Arm Identification with Fixed Budget: A Large Deviation Perspective	Dec 19, 2023	Multi-Armed Bandits	CodeCode Available
Evolutionary Multi-Armed Bandits with Genetic Thompson Sampling	Apr 26, 2022	Decision MakingEvolutionary Algorithms	CodeCode Available
Optimal Learning for Structured Bandits	Jul 14, 2020	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available
Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits	Jun 3, 2023	Multi-Armed BanditsOpen-Ended Question Answering	CodeCode Available
Confidence Intervals for Policy Evaluation in Adaptive Experiments	Nov 7, 2019	Experimental DesignMulti-Armed Bandits	CodeCode Available
Confident Off-Policy Evaluation and Selection through Self-Normalized Importance Weighting	Jun 18, 2020	Multi-Armed BanditsOff-policy evaluation	CodeCode Available

Show:10 25 50

← PrevPage 44 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified