Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 3012 papers

Title	Date	Tasks	Status	Hype
Bayes Risk Transducer: Transducer with Controllable Alignment Prediction	Aug 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Accurate synthesis of Dysarthric Speech for ASR data augmentation	Aug 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals	Aug 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving CTC-AED model with integrated-CTC and auxiliary loss regularization	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models	Aug 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Using Text Injection to Improve Recognition of Personal Identifiers in Speech	Aug 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for Conversations	Aug 14, 2023	Action DetectionActivity Detection	CodeCode Available	0
Bilingual Streaming ASR with Grapheme units and Auxiliary Monolingual Loss	Aug 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel Self-training Approach for Low-resource Speech Recognition	Aug 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation	Aug 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Comparative Analysis of the wav2vec 2.0 Feature Extractor	Aug 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism	Aug 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ApproBiVT: Lead ASR Models to Generalize Better Using Approximated Bias-Variance Tradeoff Guided Early Stopping and Checkpoint Averaging	Aug 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus	Jul 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Cascaded Cross-Modal Transformer for Request and Complaint Detection	Jul 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
On-Device Speaker Anonymization of Acoustic Embeddings for ASR based onFlexible Location Gradient Reversal Layer	Jul 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Adaptation of Whisper models to child speech recognition	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Boosting Punctuation Restoration with Data Generation and Reinforcement Learning	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation	Jul 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A meta learning scheme for fast accent domain expansion in Mandarin speech recognition	Jul 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Prompting Large Language Models with Speech Recognition Abilities	Jul 21, 2023	Abstractive Text SummarizationAutomatic Speech Recognition	—Unverified	0
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
A Deep Dive into the Disparity of Word Error Rates Across Thousands of NPTEL MOOC Videos	Jul 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Model Adaptation for ASR in low-resource Indian Languages	Jul 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications	Jul 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition	Jul 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study	Jul 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speech Diarization and ASR with GMM	Jul 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments	Jul 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture	Jul 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Transcribing Educational Videos Using Whisper: A preliminary study on using AI for transcribing educational videos	Jul 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework	Jul 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Knowledge-Aware Audio-Grounded Generative Slot Filling for Limited Annotated Data	Jul 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Boosting Norwegian Automatic Speech Recognition	Jul 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages	Jul 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Don't Stop Self-Supervision: Accent Adaptation of Speech Representations via Residual Adapters	Jul 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Accelerating Transducers through Adjacent Token Merging	Jun 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Master-ASR: Achieving Multilingual Scalability and Low-Resource Adaptation in ASR with Modular Learning	Jun 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios	Jun 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Exploring the Role of Audio in Video Captioning	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Federated Self-Learning with Weak Supervision for Speech Recognition	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning When to Trust Which Teacher for Weakly Supervised ASR	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Mixture Encoder for Joint Speech Separation and Recognition	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Rehearsal-Free Online Continual Learning for Automatic Speech Recognition	Jun 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
MobileASR: A resource-aware on-device learning framework for user voice personalization applications on mobile phones	Jun 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 15 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified