Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 655 papers

Title	Date	Tasks	Status	Hype
Optimizing Posterior Samples for Bayesian Optimization via Rootfinding	Oct 29, 2024	Bayesian Optimizationglobal-optimization	CodeCode Available	1
Bayesian Collaborative Bandits with Thompson Sampling for Improved Outreach in Maternal Health Program	Oct 28, 2024	Matrix CompletionThompson Sampling	—Unverified	0
BanditCAT and AutoIRT: Machine Learning Approaches to Computerized Adaptive Testing and Item Calibration	Oct 28, 2024	AutoMLThompson Sampling	—Unverified	0
Robust Thompson Sampling Algorithms Against Reward Poisoning Attacks	Oct 25, 2024	Decision MakingSequential Decision Making	—Unverified	0
Distributed Thompson sampling under constrained communication	Oct 21, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0
Aligning AI Agents via Information-Directed Sampling	Oct 18, 2024	Thompson Sampling	—Unverified	0
Queueing Matching Bandits with Preference Feedback	Oct 14, 2024	Thompson Sampling	CodeCode Available	0
Combinatorial Multi-armed Bandits: Arm Selection via Group Testing	Oct 14, 2024	Multi-Armed Banditsparameter estimation	—Unverified	0
Gaussian Process Thompson Sampling via Rootfinding	Oct 10, 2024	Bayesian OptimizationDecision Making	—Unverified	0
Batched Bayesian optimization by maximizing the probability of including the optimum	Oct 8, 2024	Bayesian OptimizationDiversity	CodeCode Available	1
Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks	Oct 8, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Thompson Sampling For Combinatorial Bandits: Polynomial Regret and Mismatched Sampling Paradox	Oct 7, 2024	Thompson Sampling	CodeCode Available	0
Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling	Oct 7, 2024	continuous-controlContinuous Control	—Unverified	0
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	0
Partially Observable Contextual Bandits with Linear Payoffs	Sep 17, 2024	Decision MakingMulti-Armed Bandits	—Unverified	0
Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis	Sep 10, 2024	Meta-LearningMulti-Armed Bandits	—Unverified	0
Sliding-Window Thompson Sampling for Non-Stationary Settings	Sep 8, 2024	Decision MakingSequential Decision Making	—Unverified	0
Multi-Task Combinatorial Bandits for Budget Allocation	Aug 31, 2024	Gaussian ProcessesMarketing	—Unverified	0
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders	Aug 28, 2024	Recommendation SystemsThompson Sampling	—Unverified	0
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits	Aug 28, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications	Aug 26, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	Aug 8, 2024	Federated LearningThompson Sampling	CodeCode Available	0
Optimization-Driven Adaptive Experimentation	Aug 8, 2024	GPUThompson Sampling	—Unverified	0
Anytime Multi-Agent Path Finding with an Adaptive Delay-Based Heuristic	Aug 6, 2024	Multi-Agent Path FindingSelf-Learning	CodeCode Available	0
Process-constrained batch Bayesian approaches for yield optimization in multi-reactor systems	Aug 5, 2024	Bayesian OptimizationThompson Sampling	CodeCode Available	0
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback	Jul 24, 2024	Thompson Sampling	—Unverified	0
Thompson Sampling Itself is Differentially Private	Jul 20, 2024	Thompson Sampling	—Unverified	0
Scalable Exploration via Ensemble++	Jul 18, 2024	Computational EfficiencyDecision Making	CodeCode Available	0
DRL-based Joint Resource Scheduling of eMBB and URLLC in O-RAN	Jul 16, 2024	Decision MakingDeep Reinforcement Learning	—Unverified	0
Joint User Association and Pairing in Multi-UAV-Assisted NOMA Networks: A Decaying-Epsilon Thompson Sampling Framework	Jun 20, 2024	Thompson Sampling	—Unverified	0
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified	0
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits	Jun 20, 2024	Bayesian InferenceThompson Sampling	—Unverified	0
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	0
Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents	Jun 18, 2024	continuous-controlContinuous Control	—Unverified	0
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified	0
Graph Neural Thompson Sampling	Jun 15, 2024	Decision MakingGraph Neural Network	—Unverified	0
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified	0
DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation	Jun 10, 2024	Thompson Sampling	—Unverified	0
Two-Stage Resource Allocation in Reconfigurable Intelligent Surface Assisted Hybrid Networks via Multi-Player Bandits	Jun 9, 2024	Thompson Sampling	—Unverified	0
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism	Jun 6, 2024	Thompson Sampling	—Unverified	0
A Bayesian Approach to Online Planning	Jun 4, 2024	Thompson SamplingUncertainty Quantification	CodeCode Available	1
Posterior Sampling via Autoregressive Generation	May 29, 2024	ArticlesDecision Making	—Unverified	0
Approximate Thompson Sampling for Learning Linear Quadratic Regulators with O(T) Regret	May 29, 2024	Thompson Sampling	—Unverified	0
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified	0
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified	0
On Bits and Bandits: Quantifying the Regret-Information Trade-off	May 26, 2024	Decision MakingQuestion Answering	CodeCode Available	0
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified	0
No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling	May 23, 2024	Thompson Sampling	—Unverified	0
Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making	May 23, 2024	Decision MakingSequential Decision Making	—Unverified	0

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.