Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5451–5500 of 6433 papers

Title	Date	Tasks	Status
Sparse Persistent RNNs: Squeezing Large Recurrent Networks On-Chip	Apr 26, 2018	GPUNMT	—Unverified
Sparse Transcription	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SparseVSR: Lightweight and Noise Robust Visual Speech Recognition	Jul 10, 2023	speech-recognitionSpeech Recognition	—Unverified
Sparsification via Compressed Sensing for Automatic Speech Recognition	Feb 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sparsifying Networks via Subdifferential Inclusion	Jan 1, 2021	image-classificationImage Classification	—Unverified
Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-Temporal Sparsity	Aug 4, 2021	speech-recognitionSpeech Recognition	—Unverified
Spatial Audio Processing with Large Language Model on Wearable Devices	Apr 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spatial Correlation and Value Prediction in Convolutional Neural Networks	Jul 21, 2018	General Classificationimage-classification	—Unverified
Spatial Diffuseness Features for DNN-Based Speech Recognition in Noisy and Reverberant Environments	Oct 9, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Spatio-Temporal Fusion Based Convolutional Sequence Learning for Lip Reading	Oct 1, 2019	LipreadingLip Reading	—Unverified
Speaker Adaptation for Attention-Based End-to-End Speech Recognition	Nov 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Adaptation for End-to-End CTC Models	Jan 4, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker adaptation for Wav2vec2 based dysarthric ASR	Apr 2, 2022	speech-recognitionSpeech Recognition	—Unverified
Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition	Feb 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Adapted Beamforming for Multi-Channel Automatic Speech Recognition	Jun 19, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified
Speaker- and Age-Invariant Training for Child Acoustic Modeling Using Adversarial Multi-Task Learning	Oct 19, 2022	Acoustic ModellingMulti-Task Learning	—Unverified
Speaker and Language Change Detection using Wav2vec2 and Whisper	Feb 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Anonymization with Phonetic Intermediate Representations	Jul 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker-aware speech-transformer	Jan 2, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Change Detection for Transformer Transducer ASR	Feb 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Cluster-Based Speaker Adaptive Training for Deep Neural Network Acoustic Modeling	Apr 20, 2016	speech-recognitionSpeech Recognition	—Unverified
Speaker conditioning of acoustic models using affine transformation for multi-speaker speech recognition	Oct 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker conditioned acoustic modeling for multi-speaker conversational ASR	Apr 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Diarization of Scripted Audiovisual Content	Aug 4, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Speaker Diarization with Lexical Information	Apr 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition	Jun 9, 2025	Automatic Speech RecognitionMulti-Task Learning	—Unverified
Speaker Identification using Speech Recognition	May 29, 2022	Speaker Identificationspeech-recognition	—Unverified
Speaker-Independent Speech-Driven Visual Speech Synthesis using Domain-Adapted Acoustic Models	May 15, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition	Dec 18, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Speaker Recognition in Bengali Language from Nonlinear Features	Apr 15, 2020	Speaker IdentificationSpeaker Recognition	—Unverified
Speaker Reinforcement Using Target Source Extraction for Robust Automatic Speech Recognition	May 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Selective Beamformer with Keyword Mask Estimation	Oct 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Separation Using Speaker Inventories and Estimated Speech	Oct 20, 2020	Speaker SeparationSpeech Extraction	—Unverified
Speaker Tagging Correction With Non-Autoregressive Language Models	Aug 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments	Jun 13, 2019	speech-recognitionSpeech Recognition	—Unverified
Speak & Improve Challenge 2025: Tasks and Baseline Systems	Dec 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speak & Improve Corpus 2025: an L2 English Speech Corpus for Language Assessment and Feedback	Dec 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning	Apr 8, 2019	Brain Computer InterfaceGeneral Classification	—Unverified
SpecAugment on Large Scale Datasets	Dec 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spectral decomposition method of dialog state tracking via collective matrix factorization	Jun 16, 2016	dialog state trackingManagement	—Unverified
Spectral Dependency Parsing with Latent Variables	Jul 1, 2012	Dependency ParsingObject Recognition	—Unverified
Spectral feature mapping with mimic loss for robust speech recognition	Mar 26, 2018	Robust Speech RecognitionSpeech Enhancement	—Unverified
Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's Speech	Mar 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spectral modification for recognition of children’s speech undermismatched conditions	May 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition	Jan 14, 2022	Data Augmentationspeech-recognition	—Unverified
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech2Slot: An End-to-End Knowledge-based Slot Filling from Speech	May 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech and language technologies for the automatic monitoring and training of cognitive functions	Sep 1, 2015	Keyword SpottingSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 110 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified