Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 1262 papers

Title	Date	Tasks	Status
Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees	Oct 24, 2022	Multi-Armed BanditsRepresentation Learning	—Unverified
PAC-Bayesian Offline Contextual Bandits With Guarantees	Oct 24, 2022	Generalization BoundsMulti-Armed Bandits	—Unverified
Conditionally Risk-Averse Contextual Bandits	Oct 24, 2022	ManagementMulti-Armed Bandits	CodeCode Available
Fast Beam Alignment via Pure Exploration in Multi-armed Bandits	Oct 23, 2022	Multi-Armed Bandits	CodeCode Available
Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles	Oct 21, 2022	Multi-Armed Banditsregression	CodeCode Available
Vertical Federated Linear Contextual Bandits	Oct 20, 2022	Multi-Armed Bandits	—Unverified
Contextual bandits with concave rewards, and an application to fair ranking	Oct 18, 2022	FairnessMulti-Armed Bandits	—Unverified
Simulated Contextual Bandits for Personalization Tasks from Recommendation Datasets	Oct 12, 2022	BenchmarkingMulti-Armed Bandits	CodeCode Available
Maximum entropy exploration in contextual bandits with neural networks and energy based models	Oct 12, 2022	Multi-Armed Bandits	—Unverified
Constant regret for sequence prediction with limited advice	Oct 5, 2022	Multi-Armed BanditsPrediction	—Unverified
Replicable Bandits	Oct 4, 2022	Multi-Armed Bandits	—Unverified
ProtoBandit: Efficient Prototype Selection via Multi-Armed Bandits	Oct 4, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs	Oct 4, 2022	Multi-Armed Bandits	—Unverified
On Best-Arm Identification with a Fixed Budget in Non-Parametric Multi-Armed Bandits	Sep 30, 2022	Multi-Armed Bandits	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
Active Inference for Autonomous Decision-Making with Contextual Multi-Armed Bandits	Sep 19, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Towards Robust Off-Policy Evaluation via Human Inputs	Sep 18, 2022	Multi-Armed BanditsOff-policy evaluation	—Unverified
Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems	Sep 17, 2022	Multi-Armed BanditsSelf-Learning	—Unverified
Risk-aware linear bandits with convex loss	Sep 15, 2022	Decision MakingMulti-Armed Bandits	—Unverified
Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits	Sep 15, 2022	Multi-Armed BanditsThompson Sampling	—Unverified
Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case Study in Emotion Regulation in Mobile Health	Sep 9, 2022	Multi-Armed BanditsTransfer Learning	—Unverified
Multi-Armed Bandits with Self-Information Rewards	Sep 6, 2022	Multi-Armed Bandits	—Unverified
When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits	Sep 6, 2022	Multi-Armed Bandits	—Unverified
Exposure-Aware Recommendation using Contextual Bandits	Sep 4, 2022	Multi-Armed BanditsRecommendation Systems	—Unverified
Variational Inference for Model-Free and Model-Based Reinforcement Learning	Sep 4, 2022	Bayesian InferenceBayesian Optimization	—Unverified

Show:10 25 50

← PrevPage 21 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified