Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 3012 papers

Title	Date	Tasks	Status	Hype
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems	May 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use	May 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
In-context Language Learning for Endangered Languages in Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Robust fine-tuning of speech recognition models via model merging: application to disordered speech	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Beyond Manual Transcripts: The Potential of Automated Speech Recognition Errors in Improving Alzheimer's Disease Detection	May 26, 2025	Alzheimer's Disease DetectionAutomatic Speech Recognition	—Unverified	0
Continuous Learning for Children's ASR: Overcoming Catastrophic Forgetting with Elastic Weight Consolidation and Synaptic Intelligence	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring Generative Error Correction for Dysarthric Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
CHSER: A Dataset and Case Study on Generative Speech Error Correction for Child ASR	May 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
SoccerChat: Integrating Multimodal Data for Enhanced Soccer Game Understanding	May 22, 2025	Action ClassificationAutomatic Speech Recognition	CodeCode Available	0
An Effective Training Framework for Light-Weight Automatic Speech Recognition Models	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Large Language Models based ASR Error Correction for Child Conversations	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
From Weak Labels to Strong Results: Utilizing 5,000 Hours of Noisy Classroom Transcripts with Minimal Accurate Data	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automatic Speech Recognition for African Low-Resource Languages: Challenges and Future Directions	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-Stage Speaker Diarization for Noisy Classrooms	May 16, 2025	Action DetectionActivity Detection	CodeCode Available	0
Remote Rowhammer Attack using Adversarial Observations on Federated Learning Clients	May 9, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations	May 8, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fairness of Automatic Speech Recognition in Cleft Lip and Palate Speech	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	4
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play	May 5, 2025	AI AgentAutomatic Speech Recognition	CodeCode Available	3
Transfer Learning-Based Deep Residual Learning for Speech Recognition in Clean and Noisy Environments	May 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models	Apr 21, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope	Apr 17, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning	Apr 16, 2025	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Spatial Audio Processing with Large Language Model on Wearable Devices	Apr 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation	Apr 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect	Apr 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Chain of Correction for Full-text Speech Recognition with Large Language Models	Apr 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems	Apr 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
The Impact of Code-switched Synthetic Data Quality is Task Dependent: Insights from MT and ASR	Mar 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications	Mar 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages	Mar 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	4
Qwen2.5-Omni Technical Report	Mar 26, 2025	Automatic Speech Recognition (ASR)GSM8K	CodeCode Available	7

Show:10 25 50

← PrevPage 2 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified