Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4301–4350 of 6433 papers

Title	Date	Tasks	Status
MASR: Multi-label Aware Speech Representation	Jul 20, 2023	Emotion RecognitionLanguage Identification	—Unverified
Massive End-to-end Models for Short Search Queries	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Massively Multilingual Adversarial Speech Recognition	Apr 3, 2019	General Classificationspeech-recognition	—Unverified
Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters	Jul 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Massively Multilingual Shallow Fusion with Large Language Models	Feb 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning	Jun 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into LaTeX Formulas for Improved Readability	Aug 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Matics Software Suite: New Tools for Evaluation and Data Exploration	May 1, 2018	Optical Character Recognition (OCR)Speaker Diarization	—Unverified
Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach	Nov 30, 2023	Dialect IdentificationMulti-class Classification	—Unverified
Maximum a Posteriori Adaptation of Network Parameters in Deep Models	Mar 6, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
May I Ask Who's Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance	Oct 29, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
May I Ask Who’s Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance	Nov 1, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses	Sep 17, 2024	Action DetectionActivity Detection	—Unverified
Mean Field Analysis of Neural Networks: A Central Limit Theorem	Aug 28, 2018	Speech Recognition	—Unverified
Measuring Contextual Fitness Using Error Contexts Extracted from the Wikipedia Revision History	Apr 1, 2012	Optical Character Recognition (OCR)Speech Recognition	—Unverified
Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions	Nov 21, 2018	DiagnosticSpecificity	—Unverified
Measuring Diversified Proficiency of Japanese Learners of English	Oct 1, 2016	Speech Recognition	—Unverified
Measuring Equality in Machine Learning Security Defenses: A Case Study in Speech Recognition	Feb 17, 2023	Adversarial RobustnessFairness	—Unverified
Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training	Mar 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Measuring the Influence of Long Range Dependencies with Neural Network Language Models	Jun 1, 2012	Language ModellingMachine Translation	—Unverified
Measuring the Structural Importance through Rhetorical Structure Index	Jun 1, 2013	Boundary DetectionSpeech Recognition	—Unverified
MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues	Aug 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MeetDot: Videoconferencing with Live Translation Captions	Sep 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Meet EDGAR, a tutoring agent at MONSERRATE	Aug 1, 2013	Question AnsweringSpeech Recognition	—Unverified
Meeting Transcription Using Virtual Microphone Arrays	May 3, 2019	speaker-diarizationSpeaker Diarization	—Unverified
Mel Frequency Spectral Domain Defenses against Adversarial Attacks on Speech Recognition Systems	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mel-FullSubNet: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR	Feb 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition	Dec 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Memory-efficient Speech Recognition on Smart Devices	Feb 23, 2021	speech-recognitionSpeech Recognition	—Unverified
Memory-Efficient Training of RNN-Transducer with Sampled Softmax	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Memory Visualization for Gated Recurrent Neural Networks in Speech Recognition	Sep 28, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MERaLiON-AudioLLM: Bridging Audio and Language with Large Language Models	Dec 13, 2024	speech-recognitionSpeech Recognition	—Unverified
Mesures linguistiques automatiques pour l’évaluation des systèmes de Reconnaissance Automatique de la Parole (Automated linguistic measures for automatic speech recognition systems’ evaluation)	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Meta Auxiliary Learning for Low-resource Spoken Language Understanding	Jun 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
META-CAT: Speaker-Informed Speech Embeddings via Meta Information Concatenation for Multi-talker ASR	Sep 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Meta-Gating Framework for Fast and Continuous Resource Optimization in Dynamic Wireless Environments	Jun 23, 2023	image-classificationImage Classification	—Unverified
Meta Learning for End-to-End Low-Resource Speech Recognition	Oct 26, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Meta-Learning for improving rare word recognition in end-to-end ASR	Feb 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition	Sep 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Methods to Increase the Amount of Data for Speech Recognition for Low Resource Languages	Jan 8, 2025	speech-recognitionSpeech Recognition	—Unverified
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction	Jan 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition	Jun 4, 2025	speech-recognitionSpeech Recognition	—Unverified
面向 Transformer 模型的蒙古语语音识别词特征编码方法(Researching of the Mongolian word encoding method based on Transformer Mongolian speech recognition)	Oct 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Microphone Array Geometry Independent Multi-Talker Distant ASR: NTT System for the DASR Task of the CHiME-8 Challenge	Feb 14, 2025	Action DetectionActivity Detection	—Unverified
Microsoft Speech Language Translation (MSLT) Corpus: The IWSLT 2016 release for English, French and German	Dec 1, 2016	Machine Translationspeech-recognition	—Unverified
Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating Speech Recognition Models like OpenAI's Whisper	Sep 1, 2023	speech-recognitionSpeech Recognition	—Unverified
MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation	Apr 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MIMO-SPEECH: End-to-End Multi-Channel Multi-Speaker Speech Recognition	Oct 15, 2019	speech-recognitionSpeech Recognition	—Unverified
Minimal Feature Analysis for Isolated Digit Recognition for varying encoding rates in noisy environments	Aug 27, 2022	speech-recognitionSpeech Recognition	—Unverified
Minimally-Supervised Morphological Segmentation using Adaptor Grammars	Jan 1, 2013	Machine TranslationModel Selection	—Unverified

Show:10 25 50

← PrevPage 87 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified