Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1262 papers

Title	Date	Tasks	Status	Hype
Networked Restless Bandits with Positive Externalities	Dec 9, 2022	Multi-Armed Bandits	CodeCode Available	0
Stochastic Rising Bandits	Dec 7, 2022	Model SelectionMulti-Armed Bandits	CodeCode Available	0
AC-Band: A Combinatorial Bandit-Based Approach to Algorithm Configuration	Dec 1, 2022	Multi-Armed Bandits	CodeCode Available	0
On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits	Nov 30, 2022	Multi-Armed Bandits	—Unverified	0
Incorporating Multi-armed Bandit with Local Search for MaxSAT	Nov 29, 2022	Multi-Armed Bandits	CodeCode Available	0
Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget	Nov 27, 2022	AttributeMulti-Armed Bandits	—Unverified	0
Contextual Decision-Making with Knapsacks Beyond the Worst Case	Nov 25, 2022	Decision MakingManagement	—Unverified	0
Contextual Bandits in a Survey Experiment on Charitable Giving: Within-Experiment Outcomes versus Policy Learning	Nov 22, 2022	Multi-Armed Bandits	—Unverified	0
Transfer Learning for Contextual Multi-armed Bandits	Nov 22, 2022	Multi-Armed BanditsTransfer Learning	—Unverified	0
Causal Bandits: Online Decision-Making in Endogenous Settings	Nov 16, 2022	Decision MakingMulti-Armed Bandits	—Unverified	0
Bandit Algorithms for Prophet Inequality and Pandora's Box	Nov 16, 2022	Multi-Armed BanditsStochastic Optimization	—Unverified	0
Latent Bottlenecked Attentive Neural Processes	Nov 15, 2022	Meta-LearningMulti-Armed Bandits	CodeCode Available	0
On Penalization in Stochastic Multi-armed Bandits	Nov 15, 2022	FairnessMulti-Armed Bandits	—Unverified	0
Multi-Player Bandits Robust to Adversarial Collisions	Nov 15, 2022	Multi-Armed Bandits	—Unverified	0
Hypothesis Transfer in Bandits by Weighted Models	Nov 14, 2022	Multi-Armed BanditsTransfer Learning	—Unverified	0
Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression	Nov 14, 2022	Multi-Armed Banditsregression	—Unverified	0
Generalizing distribution of partial rewards for multi-armed bandits with temporally-partitioned rewards	Nov 13, 2022	Multi-Armed Bandits	—Unverified	0
Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits	Nov 11, 2022	Multi-Armed BanditsThompson Sampling	CodeCode Available	0
Safe and Adaptive Decision-Making for Optimization of Safety-Critical Systems: The ARTEO Algorithm	Nov 10, 2022	Decision MakingDecision Making Under Uncertainty	CodeCode Available	0
Contexts can be Cheap: Solving Stochastic Contextual Bandits with Linear Bandit Algorithms	Nov 8, 2022	Multi-Armed Bandits	—Unverified	0
Adaptive Data Depth via Multi-Armed Bandits	Nov 8, 2022	Multi-Armed Bandits	CodeCode Available	0
Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits	Oct 31, 2022	Multi-Armed Bandits	CodeCode Available	1
Revisiting Simple Regret: Fast Rates for Returning a Good Arm	Oct 30, 2022	Multi-Armed Bandits	—Unverified	0
Robust Contextual Linear Bandits	Oct 26, 2022	Multi-Armed Bandits	—Unverified	0
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available	0
Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions	Oct 24, 2022	Metric LearningMulti-Armed Bandits	CodeCode Available	0
PAC-Bayesian Offline Contextual Bandits With Guarantees	Oct 24, 2022	Generalization BoundsMulti-Armed Bandits	—Unverified	0
Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees	Oct 24, 2022	Multi-Armed BanditsRepresentation Learning	—Unverified	0
Fast Beam Alignment via Pure Exploration in Multi-armed Bandits	Oct 23, 2022	Multi-Armed Bandits	CodeCode Available	0
Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles	Oct 21, 2022	Multi-Armed Banditsregression	CodeCode Available	0
Vertical Federated Linear Contextual Bandits	Oct 20, 2022	Multi-Armed Bandits	—Unverified	0
Anytime-valid off-policy inference for contextual bandits	Oct 19, 2022	counterfactualMulti-Armed Bandits	CodeCode Available	1
Contextual bandits with concave rewards, and an application to fair ranking	Oct 18, 2022	FairnessMulti-Armed Bandits	—Unverified	0
Multi-agent Dynamic Algorithm Configuration	Oct 13, 2022	Multi-Armed BanditsReinforcement Learning (RL)	CodeCode Available	1
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available	0
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified	0
Constant regret for sequence prediction with limited advice	Oct 5, 2022	Multi-Armed BanditsPrediction	—Unverified	0
ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits	Oct 4, 2022	Decision MakingMulti-Armed Bandits	—Unverified	0
Replicable Bandits	Oct 4, 2022	Multi-Armed Bandits	—Unverified	0
Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs	Oct 4, 2022	Multi-Armed Bandits	—Unverified	0
On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits	Sep 30, 2022	Multi-Armed Bandits	—Unverified	0
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified	0
Active Inference for Autonomous Decision-Making with Contextual Multi-Armed Bandits	Sep 19, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified	0
Towards Robust Off-Policy Evaluation via Human Inputs	Sep 18, 2022	Multi-Armed BanditsOff-policy evaluation	—Unverified	0
Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems	Sep 17, 2022	Multi-Armed BanditsSelf-Learning	—Unverified	0
Risk-aware linear bandits with convex loss	Sep 15, 2022	Decision MakingMulti-Armed Bandits	—Unverified	0
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified	0
Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case Study in Emotion Regulation in Mobile Health	Sep 9, 2022	Multi-Armed BanditsTransfer Learning	—Unverified	0
When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits	Sep 6, 2022	Multi-Armed Bandits	—Unverified	0
Multi-Armed Bandits with Self-Information Rewards	Sep 6, 2022	Multi-Armed Bandits	—Unverified	0

Show:10 25 50

← PrevPage 10 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified