Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 3012 papers

Title	Date	Tasks	Status
Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models	Jan 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale	Jan 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-resource Speech Translation and Recognition with LLMs	Dec 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
UME: Upcycling Mixture-of-Experts for Scalable and Efficient Automatic Speech Recognition	Dec 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding	Dec 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling	Dec 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Retrieval-Augmented Generation without Automatic Speech Recognition	Dec 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transducer-Llama: Integrating LLMs into Streamable Transducer-based Speech Recognition	Dec 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch	Dec 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transcribing and Translating, Fast and Slow: Joint Speech Translation and Recognition	Dec 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration	Dec 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speak & Improve Corpus 2025: an L2 English Speech Corpus for Language Assessment and Feedback	Dec 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speak & Improve Challenge 2025: Tasks and Baseline Systems	Dec 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Greek2MathTex: A Greek Speech-to-Text Framework for LaTeX Equations Generation	Dec 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects	Dec 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Prompt Learning and Pause Encoding for Alzheimer's Disease Detection	Dec 9, 2024	Alzheimer's Disease DetectionAutomatic Speech Recognition	—Unverified
Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning	Dec 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection	Dec 9, 2024	AllAlzheimer's Disease Detection	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction	Dec 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparative Study of LLM-based ASR and Whisper in Low Resource and Code Switching Scenario	Dec 1, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Late fusion ensembles for speech recognition on diverse input audio representations	Dec 1, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Empowering the Deaf and Hard of Hearing Community: Enhancing Video Captions Using Large Language Models	Nov 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AMPS: ASR with Multimodal Paraphrase Supervision	Nov 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Aligning Pre-trained Models for Spoken Language Translation	Nov 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario	Nov 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Continual Learning in Machine Speech Chain Using Gradient Episodic Memory	Nov 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
k2SSL: A Faster and Better Framework for Self-Supervised Speech Representation Learning	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Code-Switching ASR Leveraging Non-Peaky CTC Loss and Deep Language Posterior Injection	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Disentangled-Transformer: An Explainable End-to-End Automatic Speech Recognition Model with Speech Content-Context Separation	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Maximum Likelihood Training for Transducer-based Streaming Speech Recognition	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
High-precision medical speech recognition through synthetic data and semantic correction: UNITED-MEDASR	Nov 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transforming NLU with Babylon: A Case Study in Development of Real-time, Edge-Efficient, Multi-Intent Translation System for Automated Drive-Thru Ordering	Nov 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge	Nov 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CAFE A Novel Code switching Dataset for Algerian Dialect French and English	Nov 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language	Nov 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM	Nov 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whisper Finetuning on Nepali Language	Nov 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transferable Adversarial Attacks against ASR	Nov 14, 2024	Action DetectionActivity Detection	—Unverified
Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data	Nov 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DCF-DS: Deep Cascade Fusion of Diarization and Separation for Speech Recognition under Realistic Single-Channel Conditions	Nov 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CTC-Assisted LLM-Based Contextual ASR	Nov 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages	Nov 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO	Nov 1, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising	Oct 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs	Oct 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evaluating and Improving Automatic Speech Recognition Systems for Korean Meteorological Experts	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams	Oct 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap	Oct 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 10 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified