Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 3012 papers

Title	Date	Tasks	Status	Hype
Massive End-to-end Models for Short Search Queries	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Affect Recognition in Conversations Using Large Language Models	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Big model only for hard audios: Sample dependent Whisper model selection for efficient inferences	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Memory-augmented conformer for improved end-to-end long-form ASR	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Sparsely Shared LoRA on Whisper for Child Speech Recognition	Sep 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition	Sep 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring Speech Enhancement for Low-resource Speech Synthesis	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Semi-Autoregressive Streaming ASR With Label Context	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HTEC: Human Transcription Error Correction	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Corpus Synthesis for Zero-shot ASR domain Adaptation using Large Language Models	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Investigating End-to-End ASR Architectures for Long Form Audio Transcription	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Instruction-Following Speech Recognition	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhancing Quantised End-to-End ASR Models via Personalisation	Sep 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving Speech Recognition for African American English With Audio Classification	Sep 16, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation	Sep 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Boosting End-to-End Multilingual Phoneme Recognition through Exploiting Universal Speech Attributes Constraints	Sep 16, 2023	AttributeAutomatic Speech Recognition	—Unverified	0
Transformer Based Punctuation Restoration for Turkish	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
t-SOT FNT: Streaming Multi-talker ASR with Text-only Domain Adaptation Capability	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 27 of 121Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified