Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3951–4000 of 6433 papers

Title	Date	Tasks	Status
KIT’s IWSLT 2021 Offline Speech Translation System	Aug 1, 2021	Machine Translationspeech-recognition	—Unverified
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025	May 19, 2025	Automatic Speech RecognitionInstruction Following	—Unverified
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning	Sep 3, 2020	Deep LearningEmotion Recognition	—Unverified
Knowledge-Aware Audio-Grounded Generative Slot Filling for Limited Annotated Data	Jul 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Distillation and Data Selection for Semi-Supervised Learning in CTC Acoustic Models	Aug 10, 2020	Knowledge Distillationspeech-recognition	—Unverified
Knowledge Distillation for Improved Accuracy in Spoken Question Answering	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data	May 25, 2023	Knowledge DistillationSpeech Extraction	—Unverified
Knowledge Distillation for Neural Transducers from Large Self-Supervised Pre-trained Models	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Distillation For Recurrent Neural Network Language Modeling With Trust Regularization	Apr 8, 2019	Knowledge DistillationLanguage Modeling	—Unverified
Knowledge Distillation for Small-footprint Highway Networks	Aug 2, 2016	Acoustic ModellingKnowledge Distillation	—Unverified
Knowledge distillation from language model to acoustic model: a hierarchical multi-task learning approach	Oct 20, 2021	Knowledge DistillationLanguage Modeling	—Unverified
Knowledge Distillation from Multiple Foundation Models for End-to-End Speech Recognition	Mar 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer	Aug 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge-driven Subword Grammar Modeling for Automatic Speech Recognition in Tamil and Kannada	Jul 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Transfer for Efficient On-device False Trigger Mitigation	Oct 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Transfer from Large-scale Pretrained Language Models to End-to-end Speech Recognizers	Feb 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Transfer Pre-training	Jun 7, 2015	speech-recognitionSpeech Recognition	—Unverified
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance	Feb 7, 2025	Automatic Speech RecognitionDecoder	—Unverified
Korean Children's Spoken English Corpus and an Analysis of its Pronunciation Variability	May 1, 2012	Speech Recognition	—Unverified
Korean Tokenization for Beam Search Rescoring in Speech Recognition	Feb 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Korean Word-Sense Disambiguation Using Parallel Corpus as Additional Resource	Sep 1, 2013	Information RetrievalMachine Translation	—Unverified
L2 proficiency assessment using self-supervised speech representations	Nov 16, 2022	speech-recognitionSpeech Recognition	—Unverified
L2RS: A Learning-to-Rescore Mechanism for Automatic Speech Recognition	Oct 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Label Aware Speech Representation Learning For Language Identification	Jun 7, 2023	Language IdentificationMissing Labels	—Unverified
Label-Looping: Highly Efficient Decoding for Transducers	Jun 10, 2024	GPUspeech-recognition	—Unverified
Revisiting the Role of Label Smoothing in Enhanced Text Sentiment Classification	Dec 11, 2023	Classificationimage-classification	—Unverified
Label-Synchronous Neural Transducer for Adaptable Online E2E Speech Recognition	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and Backward Transformers	Apr 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some benchmarks	Mar 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
La longueur des tours de parole comme crit\`ere de s\'election de conversations dans un centre d'appels (Turn-taking length as criterion to select call center conversations) [in French]	Jun 1, 2012	Speech Recognition	—Unverified
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers	Nov 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration	Dec 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language Adaptive Cross-lingual Speech Representation Learning with Sparse Sharing Sub-networks	Mar 9, 2022	Representation Learningspeech-recognition	—Unverified
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition	Oct 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language Agnostic Data-Driven Inverse Text Normalization	Jan 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language-agnostic Multilingual Modeling	Apr 20, 2020	speech-recognitionSpeech Recognition	—Unverified
Language Bias in Self-Supervised Learning For Automatic Speech Recognition	Jan 31, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language Dependencies in Adversarial Attacks on Speech Recognition Systems	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language Identification in Code-Switching Scenario	Oct 1, 2014	Information RetrievalLanguage Identification	—Unverified
Language ID Prediction from Speech Using Self-Attentive Pooling and 1D-Convolutions	Apr 24, 2021	Language Identificationspeech-recognition	—Unverified
Language ID Prediction from Speech Using Self-Attentive Pooling	Jun 1, 2021	Language Identificationspeech-recognition	—Unverified
Language Informed Modeling of Code-Switched Text	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
Language learning using Speech to Image retrieval	Sep 9, 2019	Grounded language learningImage Retrieval	—Unverified
Language Model Bootstrapping Using Neural Machine Translation For Conversational Speech Recognition	Dec 2, 2019	Data AugmentationDomain Adaptation	—Unverified
Language model fusion for streaming end to end speech recognition	Apr 9, 2021	Language ModelingLanguage Modelling	—Unverified
Language Modeling at Scale	Oct 23, 2018	GPULanguage Modeling	—Unverified
Language Modeling for Code-Mixing: The Role of Linguistic Theory based Synthetic Data	Jul 1, 2018	Automatic Speech Recognition (ASR)Language Identification	—Unverified
Language Modeling for Morphologically Rich Languages: Character-Aware Modeling for Word-Level Prediction	Jan 1, 2018	Dialogue GenerationLanguage Modeling	—Unverified
Language Modeling for Spoken Dialogue System based on Filtering using Predicate-Argument Structures	Dec 1, 2012	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 80 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified