Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3201–3250 of 6433 papers

Title	Date	Tasks	Status
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer	Mar 14, 2024	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages	Jul 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual End-to-End Speech Recognition with A Single Transformer on Low-Resource Languages	Jun 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual End-to-End Speech Translation	Oct 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Parallel Corpus for Global Communication Plan	May 1, 2018	Domain AdaptationMachine Translation	—Unverified
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching	Nov 25, 2023	Language ModelingLanguage Modelling	—Unverified
Multilingual sequence-to-sequence speech recognition: architecture, transfer learning, and language modeling	Oct 4, 2018	Language ModelingLanguage Modelling	—Unverified
Multilingual Speech Recognition for Low-Resource Indian Languages using Multi-Task conformer	Aug 22, 2021	DecoderMachine Translation	—Unverified
Multilingual Speech Recognition using Knowledge Transfer across Learning Processes	Oct 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Speech Recognition With A Single End-To-End Model	Nov 6, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Speech Recognition with Corpus Relatedness Sampling	Aug 2, 2019	speech-recognitionSpeech Recognition	—Unverified
Multilingual Speech Translation with Unified Transformer: Huawei Noah's Ark Lab at IWSLT 2021	Jun 1, 2021	Data AugmentationDecoder	—Unverified
Multilingual Speech Translation with Unified Transformer: Huawei Noah’s Ark Lab at IWSLT 2021	Aug 1, 2021	Data AugmentationDecoder	—Unverified
Multilingual Standalone Trustworthy Voice-Based Social Network for Disaster Situations	Oct 28, 2024	speech-recognitionSpeech Recognition	—Unverified
Multilingual Training and Cross-lingual Adaptation on CTC-based Acoustic Model	Jan 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual training set selection for ASR in under-resourced Malian languages	Aug 13, 2021	Humanitarianspeech-recognition	—Unverified
Multilingual Transfer Learning for Children Automatic Speech Recognition	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Transformer Language Model for Speech Recognition in Low-resource Languages	Sep 8, 2022	Language ModelingLanguage Modelling	—Unverified
Multilingual Word Error Rate Estimation: e-WER3	Apr 2, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic Models	Oct 13, 2022	Language ModelingLanguage Modelling	—Unverified
Multimodal and Multiresolution Speech Recognition with Transformers	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification	Dec 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding	Sep 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding	Jun 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Comparable Corpora as Resources for Extracting Parallel Data: Parallel Phrases Extraction	Oct 1, 2013	Information RetrievalLanguage Modelling	—Unverified
Multimodal Corpora for Silent Speech Interaction	May 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Corpus of Multi-party Conversations in Second Language	May 1, 2012	Speech Recognition	—Unverified
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models	Dec 6, 2023	Automatic Speech RecognitionDecoder	—Unverified
Multi-Modal Data Augmentation for End-to-End ASR	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Depression Classification Using Articulatory Coordination Features And Hierarchical Attention Based Text Embeddings	Feb 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Modal Detection of Alzheimer's Disease from Speech and Text	Nov 30, 2020	Multimodal Deep Learningspeech-recognition	—Unverified
Multi-modal embeddings using multi-task learning for emotion recognition	Sep 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal fusion via cortical network inspired losses	May 1, 2022	Emotion RecognitionImage Description	—Unverified
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications	Nov 10, 2019	Caption GenerationImage Generation	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
Multimodal Machine Translation through Visuals and Speech	Nov 28, 2019	Image CaptioningMachine Translation	—Unverified
Multi-Modal Pre-Training for Automated Speech Recognition	Oct 12, 2021	Language ModelingLanguage Modelling	—Unverified
Multimodal Punctuation Prediction with Contextual Dropout	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Representation Learning and Fusion	Jun 25, 2025	AutoMLRepresentation Learning	—Unverified
Multi-Modal Retrieval For Large Language Model Based Speech Recognition	Jun 13, 2024	Automatic Speech RecognitionLanguage Modeling	—Unverified
Multimodal Short Video Rumor Detection System Based on Contrastive Learning	Apr 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Speaker Segmentation and Diarization using Lexical and Acoustic Cues via Sequence to Sequence Neural Networks	May 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Speech Recognition with Unstructured Audio Masking	Oct 16, 2020	8kAutomatic Speech Recognition	—Unverified
Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?	Sep 13, 2024	Automatic Speech RecognitionDecoder	—Unverified
Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video	Sep 1, 2017	Automatic Speech Recognition (ASR)Document Summarization	—Unverified
Multi-mode Transformer Transducer with Stochastic Future Context	Jun 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MOHAQ: Multi-Objective Hardware-Aware Quantization of Recurrent Neural Networks	Aug 2, 2021	Quantizationspeech-recognition	—Unverified
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition	Jun 20, 2023	Accented Speech Recognitionspeech-recognition	—Unverified
Multiple Confidence Gates For Joint Training Of SE And ASR	Apr 1, 2022	Robust Speech RecognitionSpeech Enhancement	—Unverified
Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end speech recognition	Mar 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 65 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified