SOTAVerified|Agents Browse Leaderboard About Blog

GPU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–60 of 5629 papers

Title	Date	Tasks	Status	Hype
XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models	Nov 22, 2024	GPU	CodeCode Available	5
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation	Oct 16, 2024	Audio GenerationGPU	CodeCode Available	5
KBLaM: Knowledge Base augmented Language Model	Oct 14, 2024	8kGPU	CodeCode Available	5
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models	Aug 21, 2024	GPUQuantization	CodeCode Available	5
Fast On-device LLM Inference with NPUs	Jul 8, 2024	CPUGPU	CodeCode Available	5
FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion	Jun 11, 2024	GPU	CodeCode Available	5
AudioLCM: Text-to-Audio Generation with Latent Consistency Models	Jun 1, 2024	Audio GenerationAudio Synthesis	CodeCode Available	5
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning	Feb 29, 2024	GPULanguage Modeling	CodeCode Available	5
Extreme Compression of Large Language Models via Additive Quantization	Jan 11, 2024	CPUGPU	CodeCode Available	5
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU	Dec 16, 2023	CPUGPU	CodeCode Available	5

Show:10 25 50

← PrevPage 6 of 563Next →

No leaderboard results yet.