Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4951–5000 of 6433 papers

Title	Date	Tasks	Status
Pre-training in Deep Reinforcement Learning for Automatic Speech Recognition	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pre-Training Transformers as Energy-Based Cloze Models	Dec 15, 2020	Representation Learningspeech-recognition	—Unverified
Privacy attacks for automatic speech recognition acoustic models in a federated learning framework	Nov 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Privacy-Preserving Adversarial Representation Learning in ASR: Reality or Illusion?	Nov 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Privacy-Preserving Collaborative Deep Learning with Unreliable Participants	Dec 25, 2018	Deep Learningimage-classification	—Unverified
Privacy-Preserving Edge Speech Understanding with Tiny Foundation Models	Jan 29, 2025	Privacy PreservingRobust Speech Recognition	—Unverified
Privacy-Preserving End-to-End Spoken Language Understanding	Mar 22, 2024	Privacy Preservingspeech-recognition	—Unverified
Privacy-Preserving Speech Representation Learning using Vector Quantization	Mar 15, 2022	Privacy PreservingQuantization	—Unverified
Privacy-preserving Voice Analysis via Disentangled Representations	Jul 29, 2020	AttributePrivacy Preserving	—Unverified
Private Language Model Adaptation for Speech Recognition	Sep 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Proactive Security: Embedded AI Solution for Violent and Abusive Speech Recognition	Oct 22, 2018	Data Augmentationspeech-recognition	—Unverified
Probabilistic Dialogue Modeling for Speech-Enabled Assistive Technology	Aug 1, 2013	Speech RecognitionSpoken Dialogue Systems	—Unverified
Probabilistic Dialogue Models with Prior Domain Knowledge	Jul 1, 2012	Dialogue ManagementSemantic Parsing	—Unverified
Probabilistic Hierarchical Clustering of Morphological Paradigms	Apr 1, 2012	ClusteringInformation Retrieval	—Unverified
Probabilistic Integration of Partial Lexical Information for Noise Robust Haptic Voice Recognition	Jul 1, 2012	Speech Recognition	—Unverified
Probabilistic Modelling of Morphologically Rich Languages	Aug 18, 2015	Language ModelingLanguage Modelling	—Unverified
Probing emergent geometry in speech models via replica theory	May 28, 2019	speech-recognitionSpeech Recognition	—Unverified
Probing self-attention in self-supervised speech models for cross-linguistic differences	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Probing Statistical Representations For End-To-End ASR	Nov 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems	Feb 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Proceedings of the ISCA/ITG Workshop on Diversity in Large Speech and Language Models	Mar 12, 2025	DiversityGeneral Knowledge	—Unverified
PROCTER: PROnunciation-aware ConTextual adaptER for personalized speech recognition in neural transducers	Mar 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and Inuktut	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Down-Sampling for Acoustic Encoding	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Joint Modeling in Unsupervised Single-channel Overlapped Speech Recognition	Jul 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Label Distillation: Learning Input-Efficient Deep Neural Networks	Jan 26, 2019	Knowledge Distillationspeech-recognition	—Unverified
Progressive Multi-Scale Self-Supervised Learning for Speech Recognition	Dec 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Residual Extraction based Pre-training for Speech Representation Learning	Aug 31, 2024	Emotion RecognitionRepresentation Learning	—Unverified
Progressive unsupervised domain adaptation for ASR using ensemble models and multi-stage training	Feb 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Projection of Turn Completion in Incremental Spoken Dialogue Systems	Jul 1, 2021	Language ModelingLanguage Modelling	—Unverified
Prompt-based Content Scoring for Automated Spoken Language Assessment	Jun 1, 2013	Speech Recognition	—Unverified
Promptformer: Prompted Conformer Transducer for ASR	Jan 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition	Jun 28, 2023	DecoderDomain Adaptation	—Unverified
Prompting Large Language Models with Speech Recognition Abilities	Jul 21, 2023	Abstractive Text SummarizationAutomatic Speech Recognition	—Unverified
Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection	May 29, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
PronouncUR: An Urdu Pronunciation Lexicon Generator	Jan 1, 2018	Grapheme-to-Phoneme ConversionLanguage Modeling	—Unverified
Pronunciation Adaptation For Disordered Speech Recognition Using State-Specific Vectors of Phone-Cluster Adaptive Training	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
Pronunciation-aware unique character encoding for RNN Transducer-based Mandarin speech recognition	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic Representations	Jun 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation Generation for Foreign Language Words in Intra-Sentential Code-Switching Speech Recognition	Oct 26, 2022	Sentencespeech-recognition	—Unverified
Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering the Effect of Language Transfer	Oct 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation recognition of English phonemes /@/, /æ/, /A:/ and /2/ using Formants and Mel Frequency Cepstral Coefficients	Feb 23, 2017	speech-recognitionSpeech Recognition	—Unverified
Pronunciation Variants and ASR of Colloquial Speech: A Case Study on Czech	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases	Feb 1, 2024	speech-recognitionSpeech Recognition	—Unverified
Prosomarker: a prosodic analysis tool based on optimal pitch stylization and automatic syllabi fication	May 1, 2012	Boundary DetectionSpeech Recognition	—Unverified
Protecting gender and identity with disentangled speech representations	Apr 22, 2021	Privacy PreservingRepresentation Learning	—Unverified

Show:10 25 50

← PrevPage 100 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified