Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1025 of 1262 papers

Title	Date	Tasks	Status
PAC Reinforcement Learning with Rich Observations	Feb 8, 2016	Decision MakingMulti-Armed Bandits	—Unverified
Pairwise Elimination with Instance-Dependent Guarantees for Bandits with Cost Subsidy	Jan 17, 2025	Multi-Armed Bandits	—Unverified
Parallel Contextual Bandits in Wireless Handover Optimization	Jan 21, 2019	Multi-Armed BanditsThompson Sampling	—Unverified
Parallelizing Contextual Bandits	May 21, 2021	Decision MakingDecision Making Under Uncertainty	—Unverified
Parameterized Exploration	Jul 13, 2019	Multi-Armed Bandits	—Unverified
Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users' Feedback	Sep 16, 2020	Multi-Armed BanditsRecommendation Systems	—Unverified
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Personalization Paradox in Behavior Change Apps: Lessons from a Social Comparison-Based Personalized App for Physical Activity	Jan 25, 2021	Multi-Armed Bandits	—Unverified
Personalized Course Sequence Recommendations	Dec 30, 2015	Multi-Armed Bandits	—Unverified
Perturbed-History Exploration in Stochastic Multi-Armed Bandits	Feb 26, 2019	Multi-Armed Bandits	—Unverified
Pessimism for Offline Linear Contextual Bandits using _p Confidence Sets	May 21, 2022	Multi-Armed Bandits	—Unverified
PG-TS: Improved Thompson Sampling for Logistic Contextual Bandits	May 18, 2018	Multi-Armed BanditsThompson Sampling	—Unverified
Phasic Diversity Optimization for Population-Based Reinforcement Learning	Mar 17, 2024	DiversityMuJoCo	—Unverified
Non-Stationary Off-Policy Optimization	Jun 15, 2020	Multi-Armed Bandits	—Unverified
Player Modeling via Multi-Armed Bandits	Feb 10, 2021	Multi-Armed Bandits	—Unverified
Policy Gradients for Contextual Recommendations	Feb 12, 2018	Decision MakingMulti-Armed Bandits	—Unverified
Practical Algorithms for Best-K Identification in Multi-Armed Bandits	May 19, 2017	Multi-Armed Bandits	—Unverified
Practical Contextual Bandits with Regression Oracles	Mar 3, 2018	General ClassificationMulti-Armed Bandits	—Unverified
Preference-based Online Learning with Dueling Bandits: A Survey	Jul 30, 2018	Multi-Armed BanditsSurvey	—Unverified
Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms	Apr 29, 2025	Multi-Armed BanditsNavigate	—Unverified
Privacy Amplification via Shuffling for Linear Contextual Bandits	Dec 11, 2021	Multi-Armed Bandits	—Unverified
Privacy-Preserving Communication-Efficient Federated Multi-Armed Bandits	Nov 2, 2021	Decision MakingMulti-Armed Bandits	—Unverified
Privacy-Preserving Multi-Party Contextual Bandits	Oct 11, 2019	Multi-Armed BanditsPrivacy Preserving	—Unverified
Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs	Nov 3, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Productization Challenges of Contextual Multi-Armed Bandits	Jul 10, 2019	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 41 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified