Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 6433 papers

Title	Date	Tasks	Status	Score
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition	Mar 18, 2019	DecoderHandwritten Text Recognition	CodeCode Available	5
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures	Nov 19, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
End to End ASR System with Automatic Punctuation Insertion	Dec 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Emotional Speech Recognition with Pre-trained Deep Visual Models	Apr 6, 2022	Emotion Recognitionspeech-recognition	CodeCode Available	5
ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models	Mar 29, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available	5
End-to-End Attention-based Large Vocabulary Speech Recognition	Aug 18, 2015	Acoustic ModellingLanguage Modeling	CodeCode Available	5
Efficient Ensemble for Multimodal Punctuation Restoration using Time-Delay Neural Network	Feb 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning	Apr 16, 2021	CPUDeep Learning	CodeCode Available	5
An Overview of Multi-Task Learning in Deep Neural Networks	Jun 15, 2017	BIG-bench Machine LearningDrug Discovery	CodeCode Available	5
Efficient Adaptation of Multilingual Models for Japanese ASR	Dec 14, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available	5
Effectiveness of Text, Acoustic, and Lattice-based representations in Spoken Language Understanding tasks	Dec 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks	Aug 28, 2023	Speech Recognition	CodeCode Available	5
EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition	Apr 13, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
EBPC: Extended Bit-Plane Compression for Deep Neural Network Inference and Training Accelerators	Aug 30, 2019	image-classificationImage Classification	CodeCode Available	5
DSD: Dense-Sparse-Dense Training for Deep Neural Networks	Jul 15, 2016	8kCaption Generation	CodeCode Available	5
Advances in Small-Footprint Keyword Spotting: A Comprehensive Review of Efficient Models and Algorithms	Jun 12, 2025	Automatic Speech RecognitionKeyword Spotting	CodeCode Available	5
Do You Act Like You Talk? Exploring Pose-based Driver Action Classification with Speech Recognition Networks	Jul 15, 2024	Action ClassificationData Augmentation	CodeCode Available	5
ed-cec: improving rare word recognition using asr postprocessing based on error detection and context-aware error correction	Oct 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Bringing NURC/SP to Digital Life: the Role of Open-source Automatic Speech Recognition Models	Oct 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper	Jun 9, 2024	speech-recognitionSpeech Recognition	CodeCode Available	5
Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM	Jun 8, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Does Joint Training Really Help Cascaded Speech Translation?	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation	Apr 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Do Deep Nets Really Need to be Deep?	Dec 21, 2013	Phoneme Recognitionspeech-recognition	CodeCode Available	5
Domain Adaptation Using Class Similarity for Robust Speech Recognition	Nov 5, 2020	Domain AdaptationRobust Speech Recognition	CodeCode Available	5
EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding	Jul 29, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
End-to-end Audiovisual Speech Recognition	Feb 18, 2018	Lipreadingspeech-recognition	CodeCode Available	5
Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data	Sep 25, 2019	speech-recognitionSpeech Recognition	CodeCode Available	5
Discrete Speech Unit Extraction via Independent Component Analysis	Jan 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Dysarthria Normalization via Local Lie Group Transformations for Robust ASR	Apr 16, 2025	Robust Speech Recognitionspeech-recognition	CodeCode Available	5
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation	Oct 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
BERT Attends the Conversation: Improving Low-Resource Conversational ASR	Oct 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Effects of Layer Freezing on Transferring a Speech Recognition System to Under-resourced Languages	Feb 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Distributed Learning of Deep Neural Networks using Independent Subnet Training	Oct 4, 2019	BIG-bench Machine LearningImage Classification	CodeCode Available	5
Differentiable Allophone Graphs for Language-Universal Speech Recognition	Jul 24, 2021	speech-recognitionSpeech Recognition	CodeCode Available	5
Did you hear that? Adversarial Examples Against Automatic Speech Recognition	Jan 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Efficient Keyword Spotting by capturing long-range interactions with Temporal Lambda Networks	Apr 16, 2021	Keyword Spottingspeech-recognition	CodeCode Available	5
An Online Multilingual Hate speech Recognition System	Nov 23, 2020	Hate Speech Detectionspeech-recognition	CodeCode Available	5
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization	Nov 15, 2024	DeepFake DetectionFace Swapping	CodeCode Available	5
DiaCorrect: End-to-end error correction for speaker diarization	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Building DNN Acoustic Models for Large Vocabulary Speech Recognition	Jun 30, 2014	speech-recognitionSpeech Recognition	CodeCode Available	5
Direct Segmentation Models for Streaming Speech Translation	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder	Oct 6, 2023	Alzheimer's Disease Detectionspeech-recognition	CodeCode Available	5
DELTA: A DEep learning based Language Technology plAtform	Aug 2, 2019	Abstractive Text SummarizationDeep Learning	CodeCode Available	5
Detecting Adversarial Examples for Speech Recognition via Uncertainty Quantification	May 24, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5

Show:10 25 50

← PrevPage 23 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified