Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4351–4400 of 6433 papers

Title	Date	Tasks	Status
Minimally Supervised Number Normalization	Jan 1, 2016	speech-recognitionSpeech Recognition	—Unverified
Minimally Supervised Written-to-Spoken Text Normalization	Sep 21, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator	May 18, 2022	Dialogue State TrackingLanguage Modelling	—Unverified
Minimum Bayes Risk based Answer Re-ranking for Question Answering	Aug 1, 2013	Machine TranslationQuestion Answering	—Unverified
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition	Nov 28, 2019	Language ModelingLanguage Modelling	—Unverified
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition	Nov 4, 2022	speech-recognitionSpeech Recognition	—Unverified
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR	Apr 10, 2020	DecoderMulti-Task Learning	—Unverified
Minimum Translation Modeling with Recurrent Neural Networks	Apr 1, 2014	Language ModellingMachine Translation	—Unverified
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech Recognition	Jun 4, 2021	Language ModelingLanguage Modelling	—Unverified
Mining linguistic tone patterns with symbolic representation	Aug 1, 2016	Information RetrievalMusic Information Retrieval	—Unverified
Mining Search Query Logs for Spoken Language Understanding	Jun 1, 2012	Information RetrievalSlot Filling	—Unverified
Minuteman: Machine and Human Joining Forces in Meeting Summarization	Sep 11, 2023	Meeting Summarizationspeech-recognition	—Unverified
MirasVoice: A bilingual (English-Persian) speech corpus	May 1, 2018	Speaker RecognitionSpeaker Verification	—Unverified
Mitigating Closed-model Adversarial Examples with Bayesian Neural Modeling for Enhanced End-to-End Speech Recognition	Feb 17, 2022	Adversarial RobustnessAutomatic Speech Recognition	—Unverified
Mitigating Evasion Attacks to Deep Neural Networks via Region-based Classification	Sep 17, 2017	ClassificationGeneral Classification	—Unverified
Mitigating Noisy Inputs for Question Answering	Aug 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mitigating the Impact of Speech Recognition Errors on Chatbot using Sequence-to-Sequence Model	Sep 22, 2017	ChatbotDecoder	—Unverified
MIT-QCRI Arabic Dialect Identification System for the 2017 Multi-Genre Broadcast Challenge	Aug 28, 2017	Arabic Speech RecognitionDialect Identification	—Unverified
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition	Nov 29, 2021	Neural Architecture SearchQuantization	—Unverified
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition	Nov 29, 2021	QuantizationSensitivity	—Unverified
Mixing Multiple Translation Models in Statistical Machine Translation	Jul 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems	Mar 10, 2023	Adversarial AttackAutomatic Speech Recognition	—Unverified
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition	Feb 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixture Encoder for Joint Speech Separation and Recognition	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixture-of-Expert Conformer for Streaming Multilingual ASR	May 25, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixtures of Deep Neural Experts for Automated Speech Scoring	Jun 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MKPLS: Manifold Kernel Partial Least Squares for Lipreading and Speaker Identification	Jun 1, 2013	LipreadingSpeaker Identification	—Unverified
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MLP-ASR: Sequence-length agnostic all-MLP architectures for speech recognition	Feb 17, 2022	AllAutomatic Speech Recognition	—Unverified
MLP-based architecture with variable length input for automatic speech recognition	Sep 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark	May 18, 2023	Automatic Speech RecognitionLanguage Identification	—Unverified
MMGER: Multi-modal and Multi-granularity Generative Error Correction with LLM for Joint Accent and Speech Recognition	May 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition	Nov 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MobileASR: A resource-aware on-device learning framework for user voice personalization applications on mobile phones	Jun 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mobile big data analysis with machine learning	Aug 2, 2018	BIG-bench Machine Learningspeech-recognition	—Unverified
Mobile Keyboard Input Decoding with Finite-State Transducers	Apr 13, 2017	Decoderspeech-recognition	—Unverified
Mobility Enhancement for Elderly	Oct 21, 2014	Navigatespeech-recognition	—Unverified
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified
MOCCA: Measure of Confidence for Corpus Analysis - Automatic Reliability Check of Transcript and Automatic Segmentation	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Modality Attention for End-to-End Audio-visual Speech Recognition	Nov 13, 2018	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
Modality Confidence Aware Training for Robust End-to-End Spoken Language Understanding	Jul 22, 2023	speech-recognitionSpeech Recognition	—Unverified
Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features	Oct 23, 2023	Automatic Speech RecognitionBinary Classification	—Unverified
Modality Influence in Multimodal Machine Learning	Jun 10, 2023	Decision MakingEmotion Recognition	—Unverified
Model adaptation and adaptive training for the recognition of dysarthric speech	Sep 1, 2015	Acoustic ModellingSpeech Recognition	—Unverified
Model Adaptation for ASR in low-resource Indian Languages	Jul 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Model-Based Approach for Measuring the Fairness in ASR	Sep 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 88 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified