SOTAVerified|Agents Browse Leaderboard About

Thompson Sampling

Thompson sampling, named after William R. Thompson, is a heuristic for choosing actions that addresses the exploration-exploitation dilemma in the multi-armed bandit problem. It consists of choosing the action that maximizes the expected reward with respect to a randomly drawn belief.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 655 papers

Title	Date	Tasks	Status
Generator-Mediated Bandits: Thompson Sampling for GenAI-Powered Adaptive Interventions	May 22, 2025	Large Language ModelThompson Sampling	—Unverified
In-Domain African Languages Translation Using LLMs and Multi-armed Bandits	May 21, 2025	Domain AdaptationMachine Translation	—Unverified
Dynamic Decision-Making under Model Misspecification	May 20, 2025	Decision Makingmodel	—Unverified
Addressing Missing Data Issue for Diffusion-based Recommendation	May 18, 2025	DenoisingThompson Sampling	CodeCode Available
Thompson Sampling-like Algorithms for Stochastic Rising Bandits	May 17, 2025	Model SelectionThompson Sampling	—Unverified
Leveraging Offline Data from Similar Systems for Online Linear Quadratic Control	May 14, 2025	Thompson Sampling	—Unverified
Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret	May 5, 2025	Thompson Sampling	—Unverified
Bayesian learning of the optimal action-value function in a Markov decision process	May 3, 2025	Decision MakingSequential Decision Making	—Unverified
Neural Contextual Bandits Under Delayed Feedback Constraints	Apr 16, 2025	Multi-Armed BanditsRecommendation Systems	—Unverified
Counterfactual Inference under Thompson Sampling	Apr 3, 2025	Causal Inferencecounterfactual	—Unverified

Show:10 25 50

← PrevPage 5 of 66Next →

No leaderboard results yet.