Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 1262 papers

Title	Date	Tasks	Status	Hype
Empathic Responding for Digital Interpersonal Emotion Regulation via Content Recommendation	Aug 5, 2024	Multi-Armed Bandits	—Unverified	0
Online Learning for Autonomous Management of Intent-based 6G Networks	Jul 25, 2024	Efficient ExplorationManagement	—Unverified	0
Identifiable latent bandits: Combining observational data and exploration for personalized healthcare	Jul 23, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	0
Satisficing Exploration for Deep Reinforcement Learning	Jul 16, 2024	Deep Reinforcement LearningMulti-Armed Bandits	—Unverified	0
Open Problem: Tight Bounds for Kernelized Multi-Armed Bandits with Bernoulli Rewards	Jul 8, 2024	Multi-Armed Bandits	—Unverified	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Honor Among Bandits: No-Regret Learning for Online Fair Division	Jul 1, 2024	FairnessMulti-Armed Bandits	—Unverified	0
A Contextual Combinatorial Bandit Approach to Negotiation	Jun 30, 2024	Multi-Armed Bandits	—Unverified	0
Classical Bandit Algorithms for Entanglement Detection in Parameterized Qubit States	Jun 28, 2024	Multi-Armed Bandits	—Unverified	0
Jump Starting Bandits with LLM-Generated Prior Knowledge	Jun 27, 2024	Multi-Armed BanditsRecommendation Systems	CodeCode Available	0
EduQate: Generating Adaptive Curricula through RMABs in Education Settings	Jun 20, 2024	Multi-Armed BanditsQ-Learning	—Unverified	0
BEACON: Balancing Convenience and Nutrition in Meals With Long-Term Group Recommendations and Reasoning on Multimodal Recipes	Jun 19, 2024	Multi-Armed BanditsNutrition	—Unverified	0
Towards Bayesian Data Selection	Jun 18, 2024	Active LearningAdditive models	—Unverified	0
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified	0
An Adaptive Method for Contextual Stochastic Multi-armed Bandits with Rewards Generated by a Linear Dynamical System	Jun 14, 2024	Multi-Armed Bandits	—Unverified	0
Linear Contextual Bandits with Hybrid Payoff: Revisited	Jun 14, 2024	DiversityMulti-Armed Bandits	CodeCode Available	0
Towards Domain Adaptive Neural Contextual Bandits	Jun 13, 2024	Decision MakingDomain Adaptation	—Unverified	0
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified	0
Asymptotically Optimal Regret for Black-Box Predict-then-Optimize	Jun 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning	Jun 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified	0
A conversion theorem and minimax optimality for continuum contextual bandits	Jun 9, 2024	Multi-Armed Bandits	—Unverified	0
Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits	Jun 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0

Show:10 25 50

← PrevPage 8 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified