Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 1262 papers

Title	Date	Tasks	Status
Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees	Oct 24, 2022	Multi-Armed BanditsRepresentation Learning	—Unverified
PAC-Bayesian Offline Contextual Bandits With Guarantees	Oct 24, 2022	Generalization BoundsMulti-Armed Bandits	—Unverified
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available
Fast Beam Alignment via Pure Exploration in Multi-armed Bandits	Oct 23, 2022	Multi-Armed Bandits	CodeCode Available
Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles	Oct 21, 2022	Multi-Armed Banditsregression	CodeCode Available
Vertical Federated Linear Contextual Bandits	Oct 20, 2022	Multi-Armed Bandits	—Unverified
Contextual bandits with concave rewards, and an application to fair ranking	Oct 18, 2022	FairnessMulti-Armed Bandits	—Unverified
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified
Constant regret for sequence prediction with limited advice	Oct 5, 2022	Multi-Armed BanditsPrediction	—Unverified
Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs	Oct 4, 2022	Multi-Armed Bandits	—Unverified
ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits	Oct 4, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Replicable Bandits	Oct 4, 2022	Multi-Armed Bandits	—Unverified
On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits	Sep 30, 2022	Multi-Armed Bandits	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
Active Inference for Autonomous Decision-Making with Contextual Multi-Armed Bandits	Sep 19, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Towards Robust Off-Policy Evaluation via Human Inputs	Sep 18, 2022	Multi-Armed BanditsOff-policy evaluation	—Unverified
Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems	Sep 17, 2022	Multi-Armed BanditsSelf-Learning	—Unverified
Risk-aware linear bandits with convex loss	Sep 15, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case Study in Emotion Regulation in Mobile Health	Sep 9, 2022	Multi-Armed BanditsTransfer Learning	—Unverified
When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits	Sep 6, 2022	Multi-Armed Bandits	—Unverified
Multi-Armed Bandits with Self-Information Rewards	Sep 6, 2022	Multi-Armed Bandits	—Unverified
Exposure-Aware Recommendation using Contextual Bandits	Sep 4, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Variational Inference for Model-Free and Model-Based Reinforcement Learning	Sep 4, 2022	Bayesian InferenceBayesian Optimization	—Unverified
Dynamic Global Sensitivity for Differentially Private Contextual Bandits	Aug 30, 2022	Interactive RecommendationMulti-Armed Bandits	—Unverified
A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning	Aug 23, 2022	Multi-Armed Banditsreinforcement-learning	—Unverified
Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits	Aug 11, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Increasing Students' Engagement to Reminder Emails Through Multi-Armed Bandits	Aug 10, 2022	ManagementMulti-Armed Bandits	—Unverified
Nonstationary Continuum-Armed Bandit Strategies for Automated Trading in a Simulated Financial Market	Aug 4, 2022	Bayesian OptimisationBayesian Optimization	CodeCode Available
Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits	Jul 28, 2022	Model-based Reinforcement LearningMulti-Armed Bandits	—Unverified
Towards Soft Fairness in Restless Multi-Armed Bandits	Jul 27, 2022	FairnessMulti-Armed Bandits	—Unverified
SPRT-based Efficient Best Arm Identification in Stochastic Bandits	Jul 22, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Online Learning with Off-Policy Feedback	Jul 18, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Parallel Best Arm Identification in Heterogeneous Environments	Jul 16, 2022	Multi-Armed Bandits	—Unverified
Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available
Contextual Bandits with Large Action Spaces: Made Practical	Jul 12, 2022	Decision MakingMulti-Armed Bandits	CodeCode Available
Online SuBmodular + SuPermodular (BP) Maximization with Bandit Feedback	Jul 7, 2022	Computational EfficiencyMovie Recommendation	CodeCode Available
Model Selection in Reinforcement Learning with General Function Approximations	Jul 6, 2022	Model SelectionMulti-Armed Bandits	—Unverified
Instance-optimal PAC Algorithms for Contextual Bandits	Jul 5, 2022	Multi-Armed Bandits	—Unverified
Autonomous Drug Design with Multi-Armed Bandits	Jul 4, 2022	Drug DesignMulti-Armed Bandits	—Unverified
Ranking In Generalized Linear Bandits	Jun 30, 2022	DiversityMulti-Armed Bandits	CodeCode Available
Two-Stage Neural Contextual Bandits for Personalised News Recommendation	Jun 26, 2022	Computational EfficiencyMulti-Armed Bandits	CodeCode Available
Joint Representation Training in Sequential Tasks with Shared Structure	Jun 24, 2022	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Multiple-Play Stochastic Bandits with Shareable Finite-Capacity Arms	Jun 17, 2022	Multi-Armed Bandits	—Unverified
On Private Online Convex Optimization: Optimal Algorithms in _p-Geometry and High Dimensional Contextual Bandits	Jun 16, 2022	Multi-Armed Bandits	CodeCode Available
Combinatorial Pure Exploration of Causal Bandits	Jun 16, 2022	Causal InferenceMulti-Armed Bandits	—Unverified
A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification	Jun 16, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Distributed Differential Privacy in Multi-Armed Bandits	Jun 12, 2022	Multi-Armed Bandits	—Unverified
Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits	Jun 11, 2022	AllMulti-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 11 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified