Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 3012 papers

Title	Date	Tasks	Status	Hype
Affect Recognition in Conversations Using Large Language Models	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Importance of Smoothness Induced by Optimizers in FL4ASR: Towards Understanding Federated Learning for End-to-End ASR	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Big model only for hard audios: Sample dependent Whisper model selection for efficient inferences	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Memory-augmented conformer for improved end-to-end long-form ASR	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Sparsely Shared LoRA on Whisper for Child Speech Recognition	Sep 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition	Sep 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring Speech Enhancement for Low-resource Speech Synthesis	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Semi-Autoregressive Streaming ASR With Label Context	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HTEC: Human Transcription Error Correction	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Corpus Synthesis for Zero-shot ASR domain Adaptation using Large Language Models	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Instruction-Following Speech Recognition	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Investigating End-to-End ASR Architectures for Long Form Audio Transcription	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhancing Quantised End-to-End ASR Models via Personalisation	Sep 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving Speech Recognition for African American English With Audio Classification	Sep 16, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation	Sep 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Boosting End-to-End Multilingual Phoneme Recognition through Exploiting Universal Speech Attributes Constraints	Sep 16, 2023	AttributeAutomatic Speech Recognition	—Unverified	0
Transformer Based Punctuation Restoration for Turkish	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
t-SOT FNT: Streaming Multi-talker ASR with Text-only Domain Adaptation Capability	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks	Sep 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
EnCodecMAE: Leveraging neural codecs for universal audio representation learning	Sep 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Open-vocabulary Keyword-spotting with Adaptive Instance Normalization	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Can Whisper perform speech-based in-context learning?	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion	Sep 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Leveraging Large Language Models for Exploiting ASR Uncertainty	Sep 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation	Sep 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems	Sep 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models	Sep 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition	Sep 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
AVATAR: Robust Voice Search Engine Leveraging Autoregressive Document Retrieval and Contrastive Learning	Sep 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation	Sep 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Contextual Biasing of Named-Entities with Large Language Models	Sep 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning Speech Representation From Contrastive Token-Acoustic Pretraining	Sep 1, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer	Aug 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers	Aug 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition	Aug 28, 2023	Active LearningAutomatic Speech Recognition	—Unverified	0
Decoupled Structure for Improved Adaptability of End-to-End Models	Aug 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Small and Fast BERT for Chinese Medical Punctuation Restoration	Aug 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Convoifilter: A case study of doing cocktail party speech recognition	Aug 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition	Aug 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Indonesian Automatic Speech Recognition with XLSR-53	Aug 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 14 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified