Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1851–1900 of 3012 papers

Title	Date	Tasks	Status
V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech Recognition	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ViraPart: A Text Refinement Framework for Automatic Speech Recognition and Natural Language Processing Tasks in Persian	Oct 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Visual Information Matters for ASR Error Correction	Mar 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visualizing Automatic Speech Recognition -- Means for a Better Understanding?	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer	Sep 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Privacy with Smart Digital Assistants in Educational Settings	Mar 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Quality and Pitch Features in Transformer-Based Speech Recognition	Dec 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Query Auto Completion	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System	Oct 17, 2023	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing	Aug 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment	Apr 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Warped Language Models for Noise Robust Language Understanding	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR	Apr 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav2Prompt: End-to-End Speech Prompt Generation and Tuning For LLM in Zero and Few-shot Learning	Jun 1, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts	Mar 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav2vec-S: Semi-Supervised Pre-Training for Low-Resource ASR	Oct 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition	Oct 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
W-CTC: a Connectionist Temporal Classification Loss with Wild Cards	Sep 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Weak-Attention Suppression For Transformer Based Speech Recognition	May 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Weakly Supervised Construction of ASR Systems with Massive Video Data	Aug 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Weight Averaging: A Simple Yet Effective Method to Overcome Catastrophic Forgetting in Automatic Speech Recognition	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Weighted-Sampling Audio Adversarial Example Attack	Jan 26, 2019	Adversarial AttackAutomatic Speech Recognition	—Unverified
WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal Classification Paradigm	Jan 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WERd: Using Social Text Spelling Variants for Evaluating Dialectal Speech Recognition	Sep 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WER we are and WER we think we are	Oct 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WER We Stand: Benchmarking Urdu ASR Models	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WEST: Word Encoded Sequence Transducers	Nov 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
When CTC Training Meets Acoustic Landmarks	Nov 5, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation	Feb 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Where are we in Named Entity Recognition from Speech?	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Where are we in semantic concept extraction for Spoken Language Understanding?	Jun 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Which French speech recognition system for assistant robots?	Mar 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whisper Finetuning on Nepali Language	Nov 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language	Mar 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges	Feb 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WhisperKit: On-device Real-time ASR with Billion-Scale Transformers	Jul 14, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whither the Priors for (Vocal) Interactivity?	Mar 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Are We Talking About? Handling Person Names in Speech Translation	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Needs Decoders? Efficient Estimation of Sequence-level Attributes	May 9, 2023	AttributeAutomatic Speech Recognition	—Unverified
Why Does Decentralized Training Outperform Synchronous Training In The Large Batch Setting?	Jan 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Without Further Ado: Direct and Simultaneous Speech Translation by AppTek in 2021	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition	Apr 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 38 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified