Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5651–5700 of 6433 papers

Title	Date	Tasks	Status
Structured State Space Decoder for Speech Recognition and Synthesis	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Structured Transforms for Small-Footprint Deep Learning	Oct 6, 2015	Deep LearningKeyword Spotting	—Unverified
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified
Student achievement and French sentence repetition test scores	May 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Student-Teacher Learning for BLSTM Mask-based Speech Enhancement	Mar 27, 2018	Speech Enhancementspeech-recognition	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Neural Network Algorithm	Sep 17, 2018	Image CompressionNovelty Detection	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Convolutional Neural Network	Sep 17, 2018	Face Recognitionimage-classification	—Unverified
Studying the Effect of Audio Filters in Pre-Trained Models for Environmental Sound Classification	Aug 24, 2024	ClassificationEnvironmental Sound Classification	—Unverified
Studying the Similarity of COVID-19 Sounds based on Correlation Analysis of MFCC	Oct 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Study of Indian English Pronunciation Variabilities relative to Received Pronunciation	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Study of Semi-supervised Approaches to Improving English-Mandarin Code-Switching Speech Recognition	Jun 16, 2018	speech-recognitionSpeech Recognition	—Unverified
StutterNet: Stuttering Detection Using Time Delay Neural Network	May 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered Speech	Nov 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Style-agnostic evaluation of ASR using multiple reference transcripts	Dec 10, 2024	speech-recognitionSpeech Recognition	—Unverified
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation	Aug 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Style Variation as a Vantage Point for Code-Switching	May 1, 2020	Language ModelingLanguage Modelling	—Unverified
Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition	Jun 30, 2022	Quantizationspeech-recognition	—Unverified
Sub-8-bit quantization for on-device speech recognition: a regularization-free approach	Oct 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
分頻式調變頻譜分解於強健性語音辨識 (Sub-band modulation spectrum factorization in robust speech recognition) [In Chinese]	Oct 1, 2013	Robust Speech Recognitionspeech-recognition	—Unverified
Subject Envelope based Multitype Reconstruction Algorithm of Speech Samples of Parkinson's Disease	Aug 23, 2021	Clusteringspeech-recognition	—Unverified
Subject Enveloped Deep Sample Fuzzy Ensemble Learning Algorithm of Parkinson's Speech Data	Nov 17, 2021	DiagnosticEnsemble Learning	—Unverified
Sub-lexical Dialogue Act Classification in a Spoken Dialogue System Support for the Elderly with Cognitive Disabilities	Aug 1, 2013	Dialogue Act ClassificationGeneral Classification	—Unverified
Subword and Crossword Units for CTC Acoustic Models	Dec 19, 2017	Language ModelingLanguage Modelling	—Unverified
Subword Dictionary Learning and Segmentation Techniques for Automatic Speech Recognition in Tamil and Kannada	Jul 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
Subword Regularization: An Analysis of Scalability and Generalization for End-to-End Automatic Speech Recognition	Aug 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Successes and critical failures of neural networks in capturing human-like speech recognition	Apr 6, 2022	speech-recognitionSpeech Recognition	—Unverified
Suffix Trees as Language Models	May 1, 2012	Information RetrievalLanguage Modeling	—Unverified
SUH_ASR@LT-EDI-ACL2022: Transformer based Approach for Speech Recognition for Vulnerable Individuals in Tamil	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Supervised Adaptation of Sequence-to-Sequence Speech Recognition Systems using Batch-Weighting	Dec 1, 2020	Sequence-To-Sequence Speech Recognitionspeech-recognition	—Unverified
Supervised and Unsupervised Transfer Learning for Question Answering	Nov 14, 2017	Question Answeringspeech-recognition	—Unverified
Supervised Attention in Sequence-to-Sequence Models for Speech Recognition	Apr 25, 2022	speech-recognitionSpeech Recognition	—Unverified
Supervised Contrastive Learning for Accented Speech Recognition	Jul 2, 2021	Accented Speech RecognitionContrastive Learning	—Unverified
Supervised level-wise pretraining for recurrent neural network initialization in multi-class classification	Nov 4, 2019	ClassificationGeneral Classification	—Unverified
Supervised Morphological Segmentation in a Low-Resource Learning Setting using Conditional Random Fields	Aug 1, 2013	Information RetrievalMachine Translation	—Unverified
Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training	Jun 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sur l'utilisation de la reconnaissance automatique de la parole pour l'aide au diagnostic diff\'erentiel entre la maladie de Parkinson et l'AMS (On using automatic speech recognition for the differential diagnosis of Parkinson's Disease and MSA This article presents a study regarding the contribution of automatic speech processing in the differential diagnosis between Parkinson's disease and MSA (Multi-System Atrophies))	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition	Dec 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Survey of Machine Learning Accelerators	Sep 1, 2020	BIG-bench Machine Learningobject-detection	—Unverified
SUTAV: A Turkish Audio-Visual Database	May 1, 2012	Audio-Visual Speech RecognitionPerson Identification	—Unverified
Svarah: Evaluating English ASR Systems on Indian Accents	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Swedish Whispers; Leveraging a Massive Speech Corpus for Swedish Speech Recognition	May 23, 2025	speech-recognitionSpeech Recognition	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
Switching Independent Vector Analysis and Its Extension to Blind and Spatially Guided Convolutional Beamforming Algorithms	Nov 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN	Sep 10, 2020	Deep LearningObject Recognition	—Unverified
Syllabification by Phone Categorization	Jul 15, 2018	Retrievalspeech-recognition	—Unverified
Syllable and language model based features for detecting non-scorable tests in spoken language proficiency assessment applications	Jun 1, 2014	Language ModelingLanguage Modelling	—Unverified
Syllable based DNN-HMM Cantonese Speech to Text System	Feb 13, 2024	speech-recognitionSpeech Recognition	—Unverified
Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition	Jun 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 114 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified