Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 3012 papers

Title	Date	Tasks	Status
Continuous Learning for Children's ASR: Overcoming Catastrophic Forgetting with Elastic Weight Consolidation and Synaptic Intelligence	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring Generative Error Correction for Dysarthric Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
In-context Language Learning for Endangered Languages in Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CHSER: A Dataset and Case Study on Generative Speech Error Correction for Child ASR	May 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Training Framework for Light-Weight Automatic Speech Recognition Models	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Large Language Models based ASR Error Correction for Child Conversations	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SoccerChat: Integrating Multimodal Data for Enhanced Soccer Game Understanding	May 22, 2025	Action ClassificationAutomatic Speech Recognition	CodeCode Available
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
From Weak Labels to Strong Results: Utilizing 5,000 Hours of Noisy Classroom Transcripts with Minimal Accurate Data	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Stage Speaker Diarization for Noisy Classrooms	May 16, 2025	Action DetectionActivity Detection	CodeCode Available
Automatic Speech Recognition for African Low-Resource Languages: Challenges and Future Directions	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Remote Rowhammer Attack using Adversarial Observations on Federated Learning Clients	May 9, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations	May 8, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fairness of Automatic Speech Recognition in Cleft Lip and Palate Speech	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transfer Learning-Based Deep Residual Learning for Speech Recognition in Clean and Noisy Environments	May 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models	Apr 21, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope	Apr 17, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning	Apr 16, 2025	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified
Spatial Audio Processing with Large Language Model on Wearable Devices	Apr 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation	Apr 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect	Apr 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chain of Correction for Full-text Speech Recognition with Large Language Models	Apr 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems	Apr 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
The Impact of Code-switched Synthetic Data Quality is Task Dependent: Insights from MT and ASR	Mar 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications	Mar 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Boosting the Transferability of Audio Adversarial Examples with Acoustic Representation Optimization	Mar 25, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language	Mar 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Your voice is your voice: Supporting Self-expression through Speech Generation and LLMs in Augmented and Alternative Communication	Mar 21, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces	Mar 19, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ValSub: Subsampling Validation Data to Mitigate Forgetting during ASR Personalization	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR	Mar 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building English ASR model with regional language support	Mar 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling	Mar 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From Voice to Safety: Language AI Powered Pilot-ATC Communication Understanding for Airport Surface Movement Collision Risk Assessment	Mar 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 8 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified