Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 655 papers

Title	Date	Tasks	Status
DRL-based Joint Resource Scheduling of eMBB and URLLC in O-RAN	Jul 16, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits	Jun 20, 2024	Bayesian InferenceThompson Sampling	—Unverified
Preferential Multi-Objective Bayesian Optimization	Jun 20, 2024	Autonomous DrivingBayesian Optimization	—Unverified
Joint User Association and Pairing in Multi-UAV-Assisted NOMA Networks: A Decaying-Epsilon Thompson Sampling Framework	Jun 20, 2024	Thompson Sampling	—Unverified
Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents	Jun 18, 2024	continuous-controlContinuous Control	—Unverified
More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling	Jun 18, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Graph Neural Thompson Sampling	Jun 15, 2024	Decision MakingGraph Neural Network	—Unverified
A Federated Online Restless Bandit Framework for Cooperative Resource Allocation	Jun 12, 2024	Federated LearningMulti-Armed Bandits	—Unverified
DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation	Jun 10, 2024	Thompson Sampling	—Unverified
Two-Stage Resource Allocation in Reconfigurable Intelligent Surface Assisted Hybrid Networks via Multi-Player Bandits	Jun 9, 2024	Thompson Sampling	—Unverified
Adaptively Learning to Select-Rank in Online Platforms	Jun 7, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism	Jun 6, 2024	Thompson Sampling	—Unverified
Approximate Thompson Sampling for Learning Linear Quadratic Regulators with O(T) Regret	May 29, 2024	Thompson Sampling	—Unverified
Posterior Sampling via Autoregressive Generation	May 29, 2024	ArticlesDecision Making	—Unverified
Cost-efficient Knowledge-based Question Answering with Large Language Models	May 27, 2024	Knowledge GraphsModel Selection	—Unverified
On Bits and Bandits: Quantifying the Regret-Information Trade-off	May 26, 2024	Decision MakingQuestion Answering	CodeCode Available
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits	May 24, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
No Algorithmic Collusion in Two-Player Blindfolded Game with Thompson Sampling	May 23, 2024	Thompson Sampling	—Unverified
Understanding the Training and Generalization of Pretrained Transformer for Sequential Decision Making	May 23, 2024	Decision MakingSequential Decision Making	—Unverified
Smart Routing with Precise Link Estimation: DSEE-Based Anypath Routing for Reliable Wireless Networking	May 16, 2024	Thompson Sampling	—Unverified
Analyzing and Enhancing Queue Sampling for Energy-Efficient Remote Control of Bandits	May 15, 2024	Autonomous VehiclesThompson Sampling	—Unverified
Thompson Sampling for Infinite-Horizon Discounted Decision Processes	May 14, 2024	Thompson Sampling	—Unverified
Constructing Adversarial Examples for Vertical Federated Learning: Optimal Client Corruption through Multi-Armed Bandit	May 7, 2024	Federated LearningThompson Sampling	CodeCode Available
Efficient and Adaptive Posterior Sampling Algorithms for Bandits	May 2, 2024	Thompson Sampling	—Unverified
Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation	May 2, 2024	Bayesian OptimizationConversational Recommendation	—Unverified
Bayesian-Guided Generation of Synthetic Microbiomes with Minimized Pathogenicity	Apr 29, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning	Apr 16, 2024	Federated LearningMulti-agent Reinforcement Learning	—Unverified
Online Learning of Decision Trees with Thompson Sampling	Apr 9, 2024	Interpretable Machine LearningThompson Sampling	CodeCode Available
Feel-Good Thompson Sampling for Contextual Dueling Bandits	Apr 9, 2024	Decision MakingMulti-Armed Bandits	—Unverified
A Reinforcement Learning based Reset Policy for CDCL SAT Solvers	Apr 4, 2024	reinforcement-learningReinforcement Learning	—Unverified
On the Importance of Uncertainty in Decision-Making with Large Language Models	Apr 3, 2024	Decision MakingMulti-Armed Bandits	—Unverified
Meta Learning in Bandits within Shared Affine Subspaces	Mar 31, 2024	Meta-LearningThompson Sampling	—Unverified
A resource-constrained stochastic scheduling algorithm for homeless street outreach and gleaning edible food	Mar 15, 2024	SchedulingThompson Sampling	—Unverified
ε-Neural Thompson Sampling of Deep Brain Stimulation for Parkinson Disease Treatment	Mar 11, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Cramming Contextual Bandits for On-policy Statistical Evaluation	Mar 11, 2024	Multi-Armed BanditsOff-policy evaluation	—Unverified
TS-RSR: A provably efficient approach for batch Bayesian Optimization	Mar 7, 2024	Bayesian OptimizationThompson Sampling	—Unverified
Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems	Mar 5, 2024	Thompson Sampling	—Unverified
Epsilon-Greedy Thompson Sampling to Bayesian Optimization	Mar 1, 2024	Bayesian OptimizationCantilever Beam	—Unverified
Influencing Bandits: Arm Selection for Preference Shaping	Feb 29, 2024	Recommendation SystemsThompson Sampling	—Unverified
Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits	Feb 23, 2024	Thompson Sampling	—Unverified
Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification	Feb 16, 2024	Thompson Sampling	—Unverified
Thompson Sampling in Partially Observable Contextual Bandits	Feb 15, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Diffusion Models Meet Contextual Bandits with Large Action Spaces	Feb 15, 2024	Efficient ExplorationMulti-Armed Bandits	—Unverified
Tree Ensembles for Contextual Bandits	Feb 10, 2024	Multi-Armed BanditsThompson Sampling	—Unverified
Context in Public Health for Underserved Communities: A Bayesian Approach to Online Restless Bandits	Feb 7, 2024	Multi-Armed BanditsReinforcement Learning (RL)	—Unverified
Optimistic Thompson Sampling for No-Regret Learning in Unknown Games	Feb 7, 2024	Decision MakingThompson Sampling	—Unverified
Efficient Exploration for LLMs	Feb 1, 2024	Efficient ExplorationThompson Sampling	—Unverified
Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo	Jan 22, 2024	Thompson Sampling	CodeCode Available

Show:10 25 50

← PrevPage 3 of 14Next →

No leaderboard results yet.