Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1876–1900 of 3012 papers

Title	Date	Tasks	Status
Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Weighted-Sampling Audio Adversarial Example Attack	Jan 26, 2019	Adversarial AttackAutomatic Speech Recognition	—Unverified
WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal Classification Paradigm	Jan 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WERd: Using Social Text Spelling Variants for Evaluating Dialectal Speech Recognition	Sep 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WER we are and WER we think we are	Oct 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WER We Stand: Benchmarking Urdu ASR Models	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WEST: Word Encoded Sequence Transducers	Nov 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
When CTC Training Meets Acoustic Landmarks	Nov 5, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation	Feb 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Where are we in Named Entity Recognition from Speech?	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Where are we in semantic concept extraction for Spoken Language Understanding?	Jun 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Which French speech recognition system for assistant robots?	Mar 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whisper Finetuning on Nepali Language	Nov 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language	Mar 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges	Feb 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WhisperKit: On-device Real-time ASR with Billion-Scale Transformers	Jul 14, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whither the Priors for (Vocal) Interactivity?	Mar 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Needs Decoders? Efficient Estimation of Sequence-level Attributes	May 9, 2023	AttributeAutomatic Speech Recognition	—Unverified
Why Does Decentralized Training Outperform Synchronous Training In The Large Batch Setting?	Jan 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Without Further Ado: Direct and Simultaneous Speech Translation by AppTek in 2021	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition	Apr 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 76 of 121Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified