Speech Tokenization

Speech tokenization is the task of representing speech signals as a sequence of discrete units. Such representations can be later used for various downstream tasks including automatic speech recognition, text-to-speech, etc. Such representation serves as the basis of Speech Language Models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–21 of 21 papers

Title	Date	Tasks	Status	Hype
LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization	Jun 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Factorized RVQ-GAN For Disentangled Speech Tokenization	Jun 18, 2025	DisentanglementKnowledge Distillation	—Unverified	0
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework	May 24, 2025	Adversarial AttackSpeech Tokenization	CodeCode Available	1
Exploring the Effect of Segmentation and Vocabulary Size on Speech Tokenization for Speech Language Models	May 23, 2025	Speech TokenizationSpoken Language Understanding	—Unverified	0
Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English	May 20, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified	0
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling	Apr 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation	Mar 2, 2025	DecoderRepresentation Learning	—Unverified	0
Recent Advances in Discrete Speech Tokens: A Review	Feb 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection	Nov 21, 2024	MambaSelf-Supervised Learning	CodeCode Available	0
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models	Oct 31, 2024	DecoderResynthesis	—Unverified	0
DM-Codec: Distilling Multimodal Representations for Speech Tokenization	Oct 19, 2024	Self-Supervised LearningSpeech Tokenization	CodeCode Available	2
Sylber: Syllabic Embedding Representation of Speech from Raw Audio	Oct 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
SyllableLM: Learning Coarse Semantic Units for Speech Language Models	Oct 5, 2024	ClusteringLanguage Modeling	CodeCode Available	2
Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT	Sep 16, 2024	Acoustic Unit DiscoveryClustering	CodeCode Available	1
LAST: Language Model Aware Speech Tokenization	Sep 5, 2024	Language ModelingLanguage Modelling	—Unverified	0
STAB: Speech Tokenizer Assessment Benchmark	Sep 4, 2024	Speech Tokenization	—Unverified	0
dMel: Speech Tokenization made Simple	Jul 22, 2024	DecoderLanguage Modeling	CodeCode Available	1
Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing	Jun 4, 2024	DecoderLanguage Modeling	—Unverified	0
Scaling Properties of Speech Language Models	Mar 31, 2024	Speech Tokenization	—Unverified	0
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data	Feb 12, 2024	DecoderDisentanglement	—Unverified	0
RepCodec: A Speech Representation Codec for Speech Tokenization	Aug 31, 2023	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

No leaderboard results yet.