Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3851–3900 of 6433 papers

Title	Date	Tasks	Status
Whispy: Adapting STT Whisper Models to Real-Time Environments	May 6, 2024	Action DetectionActivity Detection	—Unverified
Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision	Jun 4, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Whither the Priors for (Vocal) Interactivity?	Mar 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Needs Decoders? Efficient Estimation of Sequence-level Attributes	May 9, 2023	AttributeAutomatic Speech Recognition	—Unverified
Who Needs Words? Lexicon-Free Speech Recognition	Apr 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Why Does Decentralized Training Outperform Synchronous Training In The Large Batch Setting?	Jan 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?	Apr 27, 2022	Self-Supervised LearningSpeaker Recognition	—Unverified
WideResNet with Joint Representation Learning and Data Augmentation for Cover Song Identification	Jul 18, 2022	Cover song identificationData Augmentation	—Unverified
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Will a Blind Model Hear Better? Advanced Audiovisual Recognition System with Brain-Like Compensating and Gating	Sep 29, 2021	speech-recognitionSpeech Recognition	—Unverified
Without Further Ado: Direct and Simultaneous Speech Translation by AppTek in 2021	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition	Apr 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word Alignment Modeling with Context Dependent Deep Neural Network	Aug 1, 2013	Speech RecognitionWord Alignment	—Unverified
Word-Based Dialog State Tracking with Recurrent Neural Networks	Jun 1, 2014	dialog state trackingFeature Engineering	—Unverified
Word-Embedding based Content Features for Automated Oral Proficiency Scoring	Aug 1, 2018	Rhythmspeech-recognition	—Unverified
Word-Free Spoken Language Understanding for Mandarin-Chinese	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word-level confidence estimation for RNN transducers	Sep 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word-Level Language Identification and Predicting Codeswitching Points in Swahili-English Language Data	Nov 1, 2016	Language IdentificationSentiment Analysis	—Unverified
Word-level Speech Recognition with a Letter to Word Encoder	Jun 10, 2019	DecoderGeneral Classification	—Unverified
Word Level Timestamp Generation for Automatic Speech Recognition and Translation	May 21, 2025	Automatic Speech Recognitionautomatic-speech-translation	—Unverified
Word Order Does Not Matter For Speech Recognition	Oct 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word Recognition from Continuous Articulatory Movement Time-series Data using Symbolic Representations	Aug 1, 2013	Speech RecognitionTime Series	—Unverified
Word Segmentation of Informal Arabic with Domain Adaptation	Jun 1, 2014	Domain AdaptationMachine Translation	—Unverified
Words Worth: Verbal Content and Hirability Impressions in YouTube Video Resumes	Oct 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Word Transduction for Addressing the OOV Problem in Machine Translation for Similar Resource-Scarce Languages	Sep 1, 2017	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition	Aug 20, 2024	speech-recognitionSpeech Recognition	—Unverified
XJSA at SemEval-2017 Task 4: A Deep System for Sentiment Classification in Twitter	Aug 1, 2017	General ClassificationSemantic Parsing	—Unverified
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception	Mar 21, 2024	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese	Jan 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
XLSR-Transducer: Streaming ASR for Self-Supervised Pretrained Models	Jul 5, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
XLST: Cross-lingual Self-training to Learn Multilingual Representation for Low Resource Speech Recognition	Mar 15, 2021	Data AugmentationRepresentation Learning	—Unverified
XNOR-FORMER: Learning Accurate Approximations in Long Speech Transformers	Oct 29, 2022	speech-recognitionSpeech Recognition	—Unverified
XTREME-S: Evaluating Cross-lingual Speech Representations	Mar 21, 2022	Representation LearningRetrieval	—Unverified
XY Neural Networks	Mar 31, 2021	speech-recognitionSpeech Recognition	—Unverified
YODAS: Youtube-Oriented Dataset for Audio and Speech	Jun 2, 2024	Self-Supervised Learningspeech-recognition	—Unverified
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation	May 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish	May 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication	Mar 21, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus	Mar 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zara: A Virtual Interactive Dialogue System Incorporating Emotion, Sentiment and Personality Recognition	Dec 1, 2016	Emotion RecognitionFeature Engineering	—Unverified
Zara The Supergirl: An Empathetic Personality Recognition System	Jun 1, 2016	Emotion RecognitionSentiment Analysis	—Unverified
Zero-resource Speech Translation and Recognition with LLMs	Dec 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-Shot Automatic Pronunciation Assessment	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-shot Disfluency Detection for Indian Languages	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks using Switching Tokens	Jun 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-shot Learning for Speech Recognition with Universal Phonetic Model	Sep 27, 2018	speech-recognitionSpeech Recognition	—Unverified
Zero-Shot Learning of Language Models for Describing Human Actions Based on Semantic Compositionality of Actions	Dec 1, 2014	Language ModellingMachine Translation	—Unverified

Show:10 25 50

← PrevPage 78 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified