Multi-Armed Bandits

Multi-armed bandits refer to a task where a fixed amount of resources must be allocated between competing resources that maximizes expected gain. Typically these problems involve an exploration/exploitation trade-off.

( Image credit: Microsoft Research )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 826–850 of 1262 papers

Title	Date	Tasks	Status
Reinforced Meta Active Learning	Mar 9, 2022	Active LearningInformativeness	—Unverified
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments	Mar 28, 2025	ManagementModel Selection	—Unverified
Reinforcement learning techniques for Outer Loop Link Adaptation in 4G/5G systems	Aug 3, 2017	Multi-Armed Banditsreinforcement-learning	—Unverified
Multi-Armed Bandits with Fairness Constraints for Distributing Resources to Human Teammates	Jun 30, 2019	FairnessMulti-Armed Bandits	—Unverified
Reliability-Optimized User Admission Control for URLLC Traffic: A Neural Contextual Bandit Approach	Jan 5, 2024	Multi-Armed Bandits	—Unverified
Remote Contextual Bandits	Feb 10, 2022	MarketingMulti-Armed Bandits	—Unverified
Replicability is Asymptotically Free in Multi-armed Bandits	Feb 12, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Representation-Driven Reinforcement Learning	May 31, 2023	Multi-Armed Banditsreinforcement-learning	—Unverified
Representative Arm Identification: A fixed confidence approach to identify cluster representatives	Aug 26, 2024	Multi-Armed Bandits	—Unverified
Replicable Bandits	Oct 4, 2022	Multi-Armed Bandits	—Unverified
Residual Bootstrap Exploration for Bandit Algorithms	Feb 19, 2020	Computational EfficiencyMulti-Armed Bandits	—Unverified
Resonance: Replacing Software Constants with Context-Aware Models in Real-time Communication	Nov 23, 2020	FrictionMulti-Armed Bandits	—Unverified
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism	Oct 31, 2020	Distributed ComputingMulti-Armed Bandits	—Unverified
Resource Allocation in NOMA-based Self-Organizing Networks using Stochastic Multi-Armed Bandits	Jan 16, 2021	ManagementMulti-Armed Bandits	—Unverified
Resourceful Contextual Bandits	Feb 27, 2014	Multi-Armed Bandits	—Unverified
Restless Multi-Armed Bandits under Exogenous Global Markov Process	Feb 28, 2022	Multi-Armed Bandits	—Unverified
Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections	Jan 27, 2025	Multi-Armed BanditsScheduling	—Unverified
Revisiting Simple Regret: Fast Rates for Returning a Good Arm	Oct 30, 2022	Multi-Armed Bandits	—Unverified
Reward Biased Maximum Likelihood Estimation for Reinforcement Learning	Nov 16, 2020	Multi-Armed Banditsreinforcement-learning	—Unverified
Reward Maximization for Pure Exploration: Minimax Optimal Good Arm Identification for Nonparametric Multi-Armed Bandits	Oct 21, 2024	Multi-Armed Banditsvalid	—Unverified
Reward Teaching for Federated Multi-armed Bandits	May 3, 2023	Multi-Armed Bandits	—Unverified
Rising Rested Bandits: Lower Bounds and Efficient Algorithms	Nov 6, 2024	Model SelectionMulti-Armed Bandits	—Unverified
Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case Study in Emotion Regulation in Mobile Health	Sep 9, 2022	Multi-Armed BanditsTransfer Learning	—Unverified
Risk averse non-stationary multi-armed bandits	Sep 28, 2021	Multi-Armed Bandits	—Unverified
Risk-Aversion in Multi-armed Bandits	Dec 1, 2012	Multi-Armed Bandits	—Unverified

Show:10 25 50

← PrevPage 34 of 51Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NeuralLinear FullPosterior-MR	Cumulative regret	1.92	—	Unverified
2	Linear FullPosterior-MR	Cumulative regret	1.82	—	Unverified