Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6001–6050 of 6433 papers

Title	Date	Tasks	Status
EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition	Apr 13, 2021	Language ModelingLanguage Modelling	CodeCode Available
Comparison and Analysis of New Curriculum Criteria for End-to-End ASR	Aug 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification	Aug 22, 2023	Self-Supervised LearningSpeaker Identification	CodeCode Available
Improved Speech Enhancement with the Wave-U-Net	Nov 27, 2018	Audio Source SeparationSpeech Enhancement	CodeCode Available
A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition	Nov 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing	Jan 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improved acoustic-to-articulatory inversion using representations from pretrained self-supervised learning models	Oct 30, 2022	Emotion ClassificationSelf-Supervised Learning	CodeCode Available
Segmentation-Free Streaming Machine Translation	Sep 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks for Lighter, Faster and Robust Models	May 23, 2022	Data AugmentationInformation Retrieval	CodeCode Available
Selective Attention Merging for low resource tasks: A case study of Child ASR	Jan 14, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Learning from Past Mistakes: Improving Automatic Speech Recognition Output via Noisy-Clean Phrase Context Modeling	Feb 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning	Sep 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Evaluating Variants of wav2vec 2.0 on Affective Vocal Burst Tasks	May 5, 2023	Automatic Speech RecognitionCultural Vocal Bursts Intensity Prediction	CodeCode Available
Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia	Jun 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CoMFLP: Correlation Measure based Fast Search on ASR Layer Pruning	Sep 21, 2023	speech-recognitionSpeech Recognition	CodeCode Available
Learning Human Pose Estimation Features with Convolutional Networks	Dec 27, 2013	Object RecognitionPose Estimation	CodeCode Available
Self-Attention Networks for Connectionist Temporal Classification in Speech Recognition	Jan 22, 2019	ClassificationDecoder	CodeCode Available
Using Adapters to Overcome Catastrophic Forgetting in End-to-End Automatic Speech Recognition	Mar 30, 2022	AllAutomatic Speech Recognition	CodeCode Available
Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings	Sep 10, 2024	Automatic Speech RecognitionDiversity	CodeCode Available
Probing Acoustic Representations for Phonetic Properties	Oct 25, 2020	Benchmarkingspeech-recognition	CodeCode Available
Acoustic absement in detail: Quantifying acoustic differences across time-series representations of speech data	Apr 12, 2023	Dynamic Time Warpingspeech-recognition	CodeCode Available
Targeted Adversarial Examples for Black Box Audio Systems	May 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
ImportantAug: a data augmentation agent for speech	Dec 14, 2021	Data AugmentationKeyword Spotting	CodeCode Available
Combining Residual Networks with LSTMs for Lipreading	Mar 12, 2017	LipreadingLip Reading	CodeCode Available
Self-Powered LLM Modality Expansion for Large Speech-Text Models	Oct 4, 2024	Automatic Speech RecognitionInstruction Following	CodeCode Available
Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models	Jan 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available
Speech Recognition Challenge in the Wild: Arabic MGB-3	Sep 21, 2017	Arabic Speech RecognitionDialect Identification	CodeCode Available
Advances in Small-Footprint Keyword Spotting: A Comprehensive Review of Efficient Models and Algorithms	Jun 12, 2025	Automatic Speech RecognitionKeyword Spotting	CodeCode Available
ProGRes: Prompted Generative Rescoring on ASR n-Best	Aug 30, 2024	speech-recognitionSpeech Recognition	CodeCode Available
Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition	Mar 18, 2019	DecoderHandwritten Text Recognition	CodeCode Available
Learning Optimal Data Augmentation Policies via Bayesian Optimization for Image Classification Tasks	May 6, 2019	Bayesian OptimizationData Augmentation	CodeCode Available
DeepEMO: Deep Learning for Speech Emotion Recognition	Sep 9, 2021	Deep LearningEmotion Recognition	CodeCode Available
Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM	Jun 8, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy audios in the VOICe Dataset	Nov 1, 2021	Event DetectionRetrieval	CodeCode Available
DeepCover: Advancing RNN Test Coverage and Online Error Prediction using State Machine Extraction	Feb 10, 2024	Decision Makingspeech-recognition	CodeCode Available
Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech	Jun 23, 2018	ClassificationEmotion Recognition	CodeCode Available
Deep convolutional acoustic word embeddings using word-pair side information	Oct 5, 2015	speech-recognitionSpeech Recognition	CodeCode Available
Task Loss Estimation for Sequence Prediction	Nov 19, 2015	DecoderLanguage Modeling	CodeCode Available
Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition	Jan 4, 2024	AttributeAutomatic Speech Recognition	CodeCode Available
Train Like a (Var)Pro: Efficient Training of Neural Networks with Variable Projection	Jul 26, 2020	image-classificationImage Classification	CodeCode Available
Evaluating context-invariance in unsupervised speech representations	Oct 27, 2022	Language Modellingspeech-recognition	CodeCode Available
Learning to adapt: a meta-learning approach for speaker adaptation	Aug 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition	Mar 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Learning to detect dysarthria from raw speech	Nov 27, 2018	General ClassificationSentence	CodeCode Available
Dysarthria Normalization via Local Lie Group Transformations for Robust ASR	Apr 16, 2025	Robust Speech Recognitionspeech-recognition	CodeCode Available
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models	Jul 16, 2024	AttributeSpeaker Identification	CodeCode Available
Leveraging Self-Supervised Models for Automatic Whispered Speech Recognition	Jul 30, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available

Show:10 25 50

← PrevPage 121 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified