Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4151–4200 of 6433 papers

Title	Date	Tasks	Status
Leveraging End-to-End Speech Recognition with Neural Architecture Search	Dec 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition	Dec 15, 2023	Automatic Speech RecognitionLanguage Identification	—Unverified
Leveraging Large Language Models for Exploiting ASR Uncertainty	Sep 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing	May 27, 2025	speech-recognitionSpeech Recognition	—Unverified
Leveraging Large Text Corpora for End-to-End Speech Summarization	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis	May 27, 2025	Accented Speech RecognitionSelf-Supervised Learning	—Unverified
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning	Dec 10, 2022	Audio-Visual Speech Recognitionreinforcement-learning	—Unverified
Leveraging Native Language Speech for Accent Identification using Deep Siamese Networks	Dec 25, 2017	Speaker Profilingspeech-recognition	—Unverified
Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade	Sep 14, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling	Jul 13, 2023	intent-classificationIntent Classification	—Unverified
Leveraging Pre-trained Language Model for Speech Sentiment Analysis	Jun 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Prompt Learning and Pause Encoding for Alzheimer's Disease Detection	Dec 9, 2024	Alzheimer's Disease DetectionAutomatic Speech Recognition	—Unverified
Leveraging Redundancy in Multiple Audio Signals for Far-Field Speech Recognition	Mar 1, 2023	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Leveraging study of robustness and portability of spoken language understanding systems across languages and domains: the PORTMEDIA corpora	May 1, 2012	Semantic CompositionSpeech Recognition	—Unverified
Leveraging supplementary text data to kick-start automatic speech recognition system development with limited transcriptions	Feb 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation	Oct 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Leveraging Visemes for Better Visual Speech Representation and Lip Reading	Jul 19, 2023	Lip ReadingSentence	—Unverified
Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge	Oct 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lexical Access Model for Italian -- Modeling human speech processing: identification of words in running speech toward lexical access based on the detection of landmarks and other acoustic cues to features	Jun 24, 2021	speech-recognitionSpeech Recognition	—Unverified
Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction	Jun 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lexicon and Attention based Handwritten Text Recognition System	Sep 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lexicon for Natural Language Generation in Spanish Adapted to Alternative and Augmentative Communication	Sep 1, 2017	Speech RecognitionSpeech Synthesis	—Unverified
Lexicon-Free Conversational Speech Recognition with Neural Networks	May 1, 2015	Language ModellingNatural Language Understanding	—Unverified
Lightly Supervised Quality Estimation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
Lightweight and Efficient End-to-End Speech Recognition Using Low-Rank Transformer	Oct 30, 2019	Language ModelingLanguage Modelling	—Unverified
Lightweight and Robust Multi-Channel End-to-End Speech Recognition with Spherical Harmonic Transform	Jun 13, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Lightweight dynamic filter for keyword spotting	Sep 23, 2021	Keyword Spottingspeech-recognition	—Unverified
Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions	Oct 15, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lightweight Operations for Visual Speech Recognition	Feb 7, 2025	speech-recognitionSpeech Recognition	—Unverified
Lightweight Prompt Biasing for Contextualized End-to-End ASR Systems	Jun 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lightweight Target-Speaker-Based Overlap Transcription for Practical Streaming ASR	Jun 25, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Limitations of Deep Neural Networks: a discussion of G. Marcus' critical appraisal of deep learning	Dec 22, 2020	Autonomous VehiclesDeep Learning	—Unverified
LingSync \& the Online Linguistic Database: New Models for the Collection and Management of Data for Language Communities, Linguists and Language Learners	Jun 1, 2014	ManagementSpeech Recognition	—Unverified
Linguistic-Enhanced Transformer with CTC Embedding for Speech Recognition	Oct 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Linguistic Search Optimization for Deep Learning Based LVCSR	Aug 2, 2018	Deep Learningspeech-recognition	—Unverified
Linked Recurrent Neural Networks	Aug 19, 2018	Document ClassificationMachine Translation	—Unverified
Link Weight Prediction with Node Embeddings	Jan 1, 2018	Deep LearningGraph Mining	—Unverified
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect	Apr 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LinTO Platform: A Smart Open Voice Assistant for Business Environments	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping	Aug 11, 2023	Lip Readingspeech-recognition	—Unverified
LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition	Jan 8, 2025	Lip Readingspeech-recognition	—Unverified
Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous Fusion	Oct 25, 2020	Audio-Visual Speech RecognitionLandmark-based Lipreading	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
Lip Reading Sentences in the Wild	Nov 16, 2016	LipreadingLip Reading	—Unverified
Lipreading with Long Short-Term Memory	Jan 29, 2016	Lipreadingspeech-recognition	—Unverified
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified
Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models	May 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 84 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified