Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3701–3750 of 6433 papers

Title	Date	Tasks	Status
Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and Inuktut	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Down-Sampling for Acoustic Encoding	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Joint Modeling in Unsupervised Single-channel Overlapped Speech Recognition	Jul 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Label Distillation: Learning Input-Efficient Deep Neural Networks	Jan 26, 2019	Knowledge Distillationspeech-recognition	—Unverified
Progressive Multi-Scale Self-Supervised Learning for Speech Recognition	Dec 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Residual Extraction based Pre-training for Speech Representation Learning	Aug 31, 2024	Emotion RecognitionRepresentation Learning	—Unverified
Progressive unsupervised domain adaptation for ASR using ensemble models and multi-stage training	Feb 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Projection of Turn Completion in Incremental Spoken Dialogue Systems	Jul 1, 2021	Language ModelingLanguage Modelling	—Unverified
Prompt-based Content Scoring for Automated Spoken Language Assessment	Jun 1, 2013	Speech Recognition	—Unverified
Promptformer: Prompted Conformer Transducer for ASR	Jan 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition	Jun 28, 2023	DecoderDomain Adaptation	—Unverified
Prompting Large Language Models with Speech Recognition Abilities	Jul 21, 2023	Abstractive Text SummarizationAutomatic Speech Recognition	—Unverified
Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection	May 29, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
PronouncUR: An Urdu Pronunciation Lexicon Generator	Jan 1, 2018	Grapheme-to-Phoneme ConversionLanguage Modeling	—Unverified
Pronunciation Adaptation For Disordered Speech Recognition Using State-Specific Vectors of Phone-Cluster Adaptive Training	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
Pronunciation-aware unique character encoding for RNN Transducer-based Mandarin speech recognition	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic Representations	Jun 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation Generation for Foreign Language Words in Intra-Sentential Code-Switching Speech Recognition	Oct 26, 2022	Sentencespeech-recognition	—Unverified
Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering the Effect of Language Transfer	Oct 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pronunciation recognition of English phonemes /@/, /æ/, /A:/ and /2/ using Formants and Mel Frequency Cepstral Coefficients	Feb 23, 2017	speech-recognitionSpeech Recognition	—Unverified
Pronunciation Variants and ASR of Colloquial Speech: A Case Study on Czech	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases	Feb 1, 2024	speech-recognitionSpeech Recognition	—Unverified
Prosomarker: a prosodic analysis tool based on optimal pitch stylization and automatic syllabi fication	May 1, 2012	Boundary DetectionSpeech Recognition	—Unverified
Protecting gender and identity with disentangled speech representations	Apr 22, 2021	Privacy PreservingRepresentation Learning	—Unverified
Pruned RNN-T for fast, memory-efficient ASR training	Jun 23, 2022	DecoderGPU	—Unverified
Pseudo-Labeling for Massively Multilingual Speech Recognition	Oct 30, 2021	speech-recognitionSpeech Recognition	—Unverified
Pseudo Label Is Better Than Human Label	Mar 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems	May 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Punctuation Prediction for Polish Texts using Transformers	Oct 6, 2024	PredictionReading Comprehension	—Unverified
Punctuation Prediction in Spontaneous Conversations: Can We Mitigate ASR Errors with Retrofitted Word Embeddings?	Apr 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Punctuation Prediction with Transition-based Parsing	Aug 1, 2013	Dependency ParsingLanguage Modelling	—Unverified
SemEval 2022 Task 12: Symlink- Linking Mathematical Symbols to their Descriptions	Feb 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Punctuation Restoration in Spanish Customer Support Transcripts using Transfer Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Purely sequence-trained neural networks for ASR based on lattice-free MMI	Sep 8, 2016	Language ModelingLanguage Modelling	—Unverified
Pushing the boundaries of audiovisual word recognition using Residual Networks and LSTMs	Nov 3, 2018	Lipreadingspeech-recognition	—Unverified
Pushing the Limits of Non-Autoregressive Speech Recognition	Apr 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PyDial: A Multi-domain Statistical Dialogue System Toolkit	Jul 1, 2017	Dialogue ManagementSpeech Recognition	—Unverified
Pynini: A Python library for weighted finite-state grammar compilation	Aug 1, 2016	Automatic Speech Recognition (ASR)Optical Character Recognition (OCR)	—Unverified
PyOpenDial: A Python-based Domain-Independent Toolkit for Developing Spoken Dialogue Systems with Probabilistic Rules	Nov 1, 2019	Deep LearningDialogue Management	—Unverified
Pyramid Multi-branch Fusion DCNN with Multi-Head Self-Attention for Mandarin Speech Recognition	Mar 23, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
運用Python結合語音辨識及合成技術於自動化音文同步之實作(A Python Implementation of Automatic Speech-text Synchronization Using Speech Recognition and Text-to-Speech Technology)[In Chinese]	Oct 1, 2015	speech-recognitionSpeech Recognition	—Unverified
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus	Jun 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
QASR: QCRI Aljazeera Speech Resource A Large Scale Annotated Arabic Speech Corpus	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
QCRI Live Speech Translation System	Apr 1, 2017	Machine TranslationSpeech Recognition	—Unverified
Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations	Mar 5, 2025	AllAutomatic Speech Recognition	—Unverified
Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition	Jul 3, 2024	speech-recognitionSpeech Recognition	—Unverified
Qualitative investigation of the display of speech recognition results for communication with deaf people	Sep 1, 2015	Language Modellingspeech-recognition	—Unverified
Quality Estimation for Automatic Speech Recognition	Aug 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Quantification of stylistic differences in human- and ASR-produced transcripts of African American English	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 75 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified