Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2901–2950 of 6433 papers

Title	Date	Tasks	Status
Improved Mask-CTC for Non-Autoregressive End-to-End ASR	Oct 26, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Meta Learning for Low Resource Speech Recognition	May 11, 2022	Meta-Learningspeech-recognition	—Unverified
Improved Meta-Learning Training for Speaker Verification	Mar 29, 2021	Data AugmentationMeta-Learning	—Unverified
改良調變頻譜統計圖等化法於強健性語音辨識之研究 (Improved Modulation Spectrum Histogram Equalization for Robust Speech Recognition) [In Chinese]	Oct 1, 2013	Robust Speech Recognitionspeech-recognition	—Unverified
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer	Oct 26, 2020	Language ModelingLanguage Modelling	—Unverified
An Oral History Annotation Tool for INTER-VIEWs	May 1, 2012	RetrievalSpeech Recognition	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Improved Regularization Techniques for End-to-End Speech Recognition	Dec 19, 2017	Data Augmentationspeech-recognition	—Unverified
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities	Oct 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Self-Supervised Multilingual Speech Representation Learning Combined with Auxiliary Language Information	Dec 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Contextual RNN-T For Open Domain ASR	Jun 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Speech Enhancement with the Wave-U-Net	Oct 22, 2018	Audio Source SeparationSpeech Enhancement	—Unverified
Improved Speech Pre-Training with Supervision-Enhanced Acoustic Unit	Dec 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Speech Representations with Multi-Target Autoregressive Predictive Coding	Apr 11, 2020	speech-recognitionSpeech Recognition	—Unverified
Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs	Sep 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Training for End-to-End Streaming Automatic Speech Recognition Model with Punctuation	Jun 2, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Contextual-Utterance Training for Automatic Speech Recognition	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Documentation of Hupa with Automatic Speech Recognition	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning	Aug 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Transcription and Indexing of Oral History Interviews for Digital Humanities Research	May 1, 2018	Automatic Speech Recognition (ASR)Robust Speech Recognition	—Unverified
Improvements to deep convolutional neural networks for LVCSR	Sep 5, 2013	Speech Recognition	—Unverified
Improve Sinhala Speech Recognition Through e2e LF-MMI Model	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis	Jul 4, 2024	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
Improving Accented Speech Recognition with Multi-Domain Training	Mar 14, 2023	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
Improving Accent Identification and Accented Speech Recognition Under a Framework of Self-supervised Learning	Sep 15, 2021	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion	Nov 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BridgeNets: Student-Teacher Transfer Learning Based on Recursive Neural Networks and its Application to Distant Speech Recognition	Oct 27, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Arabic Diacritization through Syntactic Analysis	Sep 1, 2015	Machine TranslationMorphological Analysis	—Unverified
Improving ASR Contextual Biasing with Guided Attention	Jan 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Open Web Platform for Rule-Based Speech-to-Sign Translation	Aug 1, 2016	Machine TranslationSign Language Recognition	—Unverified
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Automatic Speech Recognition with Decoder-Centric Regularisation in Encoder-Decoder Models	Oct 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Black-box Speech Recognition using Semantic Parsing	Nov 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving callsign recognition with air-surveillance data in air-traffic communication	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing CTC-based speech recognition with diverse modeling units	Jun 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Character Error Rate Is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-box Acoustic Models	Oct 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts	Jun 4, 2025	Mistake Detectionspeech-recognition	—Unverified
Improving child speech recognition with augmented child-like speech	Jun 12, 2024	speech-recognitionSpeech Recognition	—Unverified
Improving Code-switched ASR with Linguistic Information	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation	Jun 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Code-switching Language Modeling with Artificially Generated Texts using Cycle-consistent Adversarial Networks	Dec 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Breaking Walls: Pioneering Automatic Speech Recognition for Central Kurdish: End-to-End Transformer Paradigm	Apr 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model	Sep 3, 2024	Language IdentificationMixture-of-Experts	—Unverified
Improving Continuous Sign Language Recognition with Cross-Lingual Signs	Aug 21, 2023	Sign Language Recognitionspeech-recognition	—Unverified
Improving cross-domain n-gram language modelling with skipgrams	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified
Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation	Jun 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving CTC-AED model with integrated-CTC and auxiliary loss regularization	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving CTC-based ASR Models with Gated Interlayer Collaboration	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Code-switching Speech Recognition with Interactive Language Biases	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 59 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified