Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6051–6100 of 6433 papers

Title	Date	Tasks	Status
A Toolkit for Efficient Learning of Lexical Units for Speech Recognition	May 1, 2014	Information RetrievalLanguage Modeling	CodeCode Available
When Is TTS Augmentation Through a Pivot Language Useful?	Jul 20, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
NeMo Inverse Text Normalization: From Development To Production	Apr 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition	Mar 14, 2023	Model Compressionspeech-recognition	CodeCode Available
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
DSD: Dense-Sparse-Dense Training for Deep Neural Networks	Jul 15, 2016	8kCaption Generation	CodeCode Available
HydraFormer: One Encoder For All Subsampling Rates	Aug 8, 2024	AllAutomatic Speech Recognition	CodeCode Available
Big-Little Net: An Efficient Multi-Scale Feature Representation for Visual and Speech Recognition	Jul 10, 2018	ObjectObject Recognition	CodeCode Available
Do You Act Like You Talk? Exploring Pose-based Driver Action Classification with Speech Recognition Networks	Jul 15, 2024	Action ClassificationData Augmentation	CodeCode Available
Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge	Nov 23, 2022	Active Speaker DetectionAutomatic Speech Recognition	CodeCode Available
Neural Architecture Search: A Survey	Aug 16, 2018	Machine TranslationNeural Architecture Search	CodeCode Available
Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks	Jan 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Self-supervised Semantic-driven Phoneme Discovery for Zero-resource Speech Recognition	Nov 16, 2021	Phoneme RecognitionRepresentation Learning	CodeCode Available
Neural Architecture Search: Insights from 1000 Papers	Jan 20, 2023	Natural Language UnderstandingNeural Architecture Search	CodeCode Available
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training	Apr 16, 2024	Language ModelingLanguage Modelling	CodeCode Available
Teaching Wav2Vec2 the Language of the Brain	Jan 16, 2025	Brain Decodingspeech-recognition	CodeCode Available
Hybrid phonetic-neural model for correction in speech recognition systems	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Theory of Unsupervised Speech Recognition	Jun 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Target-Agnostic Attack on Deep Models: Exploiting Security Vulnerabilities of Transfer Learning	Apr 8, 2019	Face RecognitionImage Classification	CodeCode Available
A Comprehensive Evaluation of Incremental Speech Recognition and Diarization for Conversational AI	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech Recognition with Deep Recurrent Neural Networks	Mar 22, 2013	Handwriting RecognitionPhoneme Recognition	CodeCode Available
Lend a Hand: Semi Training-Free Cued Speech Recognition via MLLM-Driven Hand Modeling for Barrier-free Communication	Mar 11, 2025	Lip ReadingPrompt Engineering	CodeCode Available
Self-supervised Speech Representations Still Struggle with African American Vernacular English	Aug 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Decoding P300 Variability using Convolutional Neural Networks	Jun 14, 2019	EEGEeg Decoding	CodeCode Available
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Self-Train Before You Transcribe	Jun 17, 2024	Domain AdaptationLanguage Modelling	CodeCode Available
Self-training and Pre-training are Complementary for Speech Recognition	Oct 22, 2020	speech-recognitionSpeech Recognition	CodeCode Available
A Survey of Recent DNN Architectures on the TIMIT Phone Recognition Task	Jun 19, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Hybrid Macro/Micro Level Backpropagation for Training Deep Spiking Neural Networks	May 21, 2018	Image Classificationspeech-recognition	CodeCode Available
HYBRIDFORMER: improving SqueezeFormer with hybrid attention and NSR mechanism	Mar 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Let SSMs be ConvNets: State-space Modeling with Optimal Tensor Contractions	Jan 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Letter-Based Speech Recognition with Gated ConvNets	Dec 22, 2017	DecoderLanguage Modeling	CodeCode Available
Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition	Nov 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Bigger is not Always Better: The Effect of Context Size on Speech Pre-Training	Dec 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling	Feb 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech Understanding on Tiny Devices with A Learning Cache	Nov 30, 2023	speech-recognitionSpeech Recognition	CodeCode Available
DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution	May 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
TinyML for Speech Recognition	Apr 22, 2025	speech-recognitionSpeech Recognition	CodeCode Available
Bidirectional Quaternion Long-Short Term Memory Recurrent Neural Networks for Speech Recognition	Nov 6, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Semantically Corrected Amharic Automatic Speech Recognition	Apr 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Semantically Meaningful Metrics for Norwegian ASR Systems	Sep 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR	Jan 6, 2024	Active LearningAutomatic Speech Recognition	CodeCode Available
Transcription free filler word detection with Neural semi-CRFs	Mar 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Combination of Convolutional and Recurrent Neural Network for Sentiment Analysis of Short Texts	Dec 1, 2016	Information RetrievalSentiment Analysis	CodeCode Available
Neural network based spectral mask estimation for acoustic beamforming	Mar 20, 2016	speech-recognitionSpeech Recognition	CodeCode Available
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper	Jun 9, 2024	speech-recognitionSpeech Recognition	CodeCode Available
Collecting Resources in Sub-Saharan African Languages for Automatic Speech Recognition: a Case Study of Wolof	May 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Semantic Mask for Transformer based End-to-End Speech Recognition	Dec 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN	Jul 24, 2023	Automatic Speech RecognitionSentiment Analysis	CodeCode Available
Neural NILM: Deep Neural Networks Applied to Energy Disaggregation	Jul 23, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available

Show:10 25 50

← PrevPage 122 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified