Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6101–6150 of 6433 papers

Title	Date	Tasks	Status
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Error-preserving Automatic Speech Recognition of Young English Learners' Language	Jun 5, 2024	Automatic Speech RecognitionLanguage Modelling	CodeCode Available
Leveraging Multilingual Self-Supervised Pretrained Models for Sequence-to-Sequence End-to-End Spoken Language Understanding	Oct 9, 2023	slot-fillingSlot Filling	CodeCode Available
Domain Adaptation Using Class Similarity for Robust Speech Recognition	Nov 5, 2020	Domain AdaptationRobust Speech Recognition	CodeCode Available
Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion	Sep 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Neural Sentiment Classification with User and Product Attention	Nov 1, 2016	ClassificationFeature Engineering	CodeCode Available
Does Joint Training Really Help Cascaded Speech Translation?	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
3D Convolutional Neural Networks for Cross Audio-Visual Matching Recognition	Jun 18, 2017	Speaker Verificationspeech-recognition	CodeCode Available
PyKaldi2: Yet another speech toolkit based on Kaldi and PyTorch	Jul 12, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Using Filter Banks in Convolutional Neural Networks for Texture Classification	Jan 12, 2016	ClassificationGeneral Classification	CodeCode Available
Human Transcription Quality Improvement	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Survey of Deep Active Learning	Aug 30, 2020	Active Learningspeech-recognition	CodeCode Available
To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation	Jun 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition	Feb 10, 2024	Contrastive LearningEmotion Recognition	CodeCode Available
Do Deep Nets Really Need to be Deep?	Dec 21, 2013	Phoneme Recognitionspeech-recognition	CodeCode Available
HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition	Mar 7, 2024	Audio-Visual Speech RecognitionKnowledge Distillation	CodeCode Available
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation	Oct 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech-text based multi-modal training with bidirectional attention for improved speech recognition	Nov 1, 2022	speech-recognitionSpeech Recognition	CodeCode Available
lex4all: A language-independent tool for building and evaluating pronunciation lexicons for small-vocabulary speech recognition	Jun 1, 2014	speech-recognitionSpeech Recognition	CodeCode Available
Textless Speech-to-Speech Translation With Limited Parallel Data	May 24, 2023	Automatic Speech RecognitionDenoising	CodeCode Available
Enriching Rare Word Representations in Neural Language Models by Embedding Matrix Augmentation	Apr 8, 2019	speech-recognitionSpeech Recognition	CodeCode Available
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024	Aug 5, 2024	Decoderspeech-recognition	CodeCode Available
QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding	Oct 7, 2016	image-classificationImage Classification	CodeCode Available
Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks	Sep 2, 2018	speech-recognitionSpeech Recognition	CodeCode Available
How You Say It Matters: Measuring the Impact of Verbal Disfluency Tags on Automated Dementia Detection	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
How Phonotactics Affect Multilingual and Zero-shot ASR Performance	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Honk: A PyTorch Reimplementation of Convolutional Neural Networks for Keyword Spotting	Oct 18, 2017	Keyword Spottingspeech-recognition	CodeCode Available
Homophone Disambiguation Reveals Patterns of Context Mixing in Speech Transformers	Oct 15, 2023	Decoderspeech-recognition	CodeCode Available
HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation	Jun 20, 2023	Cross-corpusSentence	CodeCode Available
LibriVoxDeEn: A Corpus for German-to-English Speech Translation and German Speech Recognition	Oct 17, 2019	Sentencespeech-recognition	CodeCode Available
Light Gated Recurrent Units for Speech Recognition	Mar 26, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
High-order Graph-based Neural Dependency Parsing	Oct 1, 2015	Dependency ParsingMachine Translation	CodeCode Available
Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video	Jun 5, 2015	Gesture RecognitionImage Captioning	CodeCode Available
Hierarchical Text Generation using an Outline	Oct 20, 2018	Dialogue Generationspeech-recognition	CodeCode Available
Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition	Apr 8, 2022	speech-recognitionSpeech Recognition	CodeCode Available
Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications	Aug 28, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Enhancing Quantised End-to-End ASR Models via Personalisation	Sep 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
NIESR: Nuisance Invariant End-to-end Speech Recognition	Jul 7, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Bayesian Learning for Deep Neural Network Adaptation	Dec 14, 2020	speech-recognitionSpeech Recognition	CodeCode Available
Quantifying Bias in Automatic Speech Recognition	Mar 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube	Apr 29, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Lightweight Transducer Based on Frame-Level Criterion	Sep 5, 2024	Decoderimbalanced classification	CodeCode Available
Text-Based Detection of On-Hold Scripts in Contact Center Calls	Jul 13, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling	Sep 25, 2024	Automatic Speech RecognitionEmotion Recognition	CodeCode Available
Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation	Jun 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Quantization and Deployment of Deep Neural Networks on Microcontrollers	May 27, 2021	Activity RecognitionHuman Activity Recognition	CodeCode Available
Quantization for OpenAI's Whisper Models: A Comparative Analysis	Mar 12, 2025	Quantizationspeech-recognition	CodeCode Available

Show:10 25 50

← PrevPage 123 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified