Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5851–5900 of 6433 papers

Title	Date	Tasks	Status
Personalizing ASR for Dysarthric and Accented Speech with Limited Data	Jul 31, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Investigating the Effects of Word Substitution Errors on Sentence Embeddings	Nov 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding	Jul 12, 2023	speech-recognitionSpeech Recognition	CodeCode Available
Very Deep Convolutional Networks for End-to-End Speech Recognition	Oct 10, 2016	speech-recognitionSpeech Recognition	CodeCode Available
Personal VAD: Speaker-Conditioned Voice Activity Detection	Aug 12, 2019	Action DetectionActivity Detection	CodeCode Available
PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Robust Training under Linguistic Adversity	Apr 1, 2017	Sentiment AnalysisSpeech Recognition	CodeCode Available
Anti-Transfer Learning for Task Invariance in Convolutional Neural Networks for Speech Processing	Jun 11, 2020	Emotion Recognitionspeech-recognition	CodeCode Available
Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition	Mar 27, 2018	Robust Speech RecognitionSpeech Dereverberation	CodeCode Available
Robust Unstructured Knowledge Access in Conversational Dialogue with ASR Errors	Nov 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges	Oct 4, 2024	Dialect IdentificationDiversity	CodeCode Available
Phone Features Improve Speech Translation	May 27, 2020	Machine Translationspeech-recognition	CodeCode Available
RoDia: A New Dataset for Romanian Dialect Identification from Speech	Sep 6, 2023	Dialect IdentificationSpeaker Verification	CodeCode Available
Supervised Acoustic Embeddings And Their Transferability Across Languages	Jan 3, 2023	speech-recognitionSpeech Recognition	CodeCode Available
Intrinsic evaluation of language models for code-switching	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Interpersonal Relationship Labels for the CALLHOME Corpus	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	CodeCode Available
KT-Speech-Crawler: Automatic Dataset Construction for Speech Recognition from YouTube Videos	Mar 1, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Kurdish (Sorani) Speech to Text: Presenting an Experimental Dataset	Nov 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for Conversations	Aug 14, 2023	Action DetectionActivity Detection	CodeCode Available
Very Deep Convolutional Neural Networks for Robust Speech Recognition	Oct 2, 2016	Robust Speech Recognitionspeech-recognition	CodeCode Available
Unsupervised Submodular Rank Aggregation on Score-based Permutations	Jul 4, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate	Oct 23, 2023	Computational EfficiencyGesture Recognition	CodeCode Available
Automatic Dialect Detection in Arabic Broadcast Speech	Sep 23, 2015	Dialect IdentificationLanguage Identification	CodeCode Available
Two-stage Textual Knowledge Distillation for End-to-End Spoken Language Understanding	Oct 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
XLSR53 Wav2Vec2 Portuguese by Orlem Santos	Feb 1, 2022	Speech Recognition	CodeCode Available
Integrated Semantic and Phonetic Post-correction for Chinese Speech Recognition	Nov 16, 2021	Language ModelingLanguage Modelling	CodeCode Available
Explainability of Speech Recognition Transformers via Gradient-based Attention Visualization	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition	Jul 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning	Dec 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Rotational Unit of Memory	Oct 26, 2017	Language ModelingLanguage Modelling	CodeCode Available
Bayesian Recurrent Units and the Forward-Backward Algorithm	Jul 21, 2022	Speech Recognition	CodeCode Available
Evolutionary Stochastic Gradient Descent for Optimization of Deep Neural Networks	Oct 16, 2018	Evolutionary AlgorithmsLanguage Modeling	CodeCode Available
Deep word embeddings for visual speech recognition	Oct 30, 2017	Lipreadingspeech-recognition	CodeCode Available
Phonemic Transcription of Low-Resource Tonal Languages	Dec 1, 2017	Acoustic ModellingLanguage Modeling	CodeCode Available
Connectionist Temporal Classification with Maximum Entropy Regularization	Dec 1, 2018	ClassificationGeneral Classification	CodeCode Available
Phonetically-Oriented Word Error Alignment for Speech Recognition Error Analysis in Speech Translation	Apr 24, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Language-Agnostic Syllabification with Neural Sequence Labeling	Sep 29, 2019	Chunkingnamed-entity-recognition	CodeCode Available
Indian EmoSpeech Command Dataset: A dataset for emotion based speech recognition in the wild	Oct 18, 2019	Emotion RecognitionKeyword Spotting	CodeCode Available
Multilingual Bottleneck Features for Improving ASR Performance of Code-Switched Speech in Under-Resourced Languages	Oct 31, 2020	Acoustic ModellingAutomatic Speech Recognition	CodeCode Available
Language Bootstrapping: Learning Word Meanings From Perception-Action Association	Nov 27, 2017	Language Acquisitionspeech-recognition	CodeCode Available
Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't	Jun 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multilingual bottleneck features for subword modeling in zero-resource languages	Mar 23, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Bayesian Neural Network Language Modeling for Speech Recognition	Aug 28, 2022	Data AugmentationLanguage Modeling	CodeCode Available
Language Identification Using Deep Convolutional Recurrent Neural Networks	Aug 16, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Simple Way to Initialize Recurrent Networks of Rectified Linear Units	Apr 3, 2015	Language ModelingLanguage Modelling	CodeCode Available
Surprisal-Triggered Conditional Computation with Neural Networks	Jun 2, 2020	speech-recognitionSpeech Recognition	CodeCode Available
Towards Temporally Explainable Dysarthric Speech Clarity Assessment	May 31, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition	Jun 18, 2023	DecoderDomain Adaptation	CodeCode Available
Effects of Layer Freezing on Transferring a Speech Recognition System to Under-resourced Languages	Feb 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps	Feb 28, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available

Show:10 25 50

← PrevPage 118 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified