Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1825 of 3012 papers

Title	Date	Tasks	Status
VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording	Jul 15, 2021	Action DetectionActivity Detection	—Unverified
Zero-shot Speech Translation	Jul 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The IWSLT 2021 BUT Speech Translation Systems	Jul 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Configurable Multilingual Model is All You Need to Recognize All Languages	Jul 13, 2021	AllAutomatic Speech Recognition	—Unverified
Perceptual-based deep-learning denoiser as a defense against adversarial attacks on ASR systems	Jul 12, 2021	Adversarial RobustnessAutomatic Speech Recognition	—Unverified
Noisy Training Improves E2E ASR for the Edge	Jul 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On lattice-free boosted MMI training of HMM and CTC-based full-context ASR models	Jul 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Loss Prediction: End-to-End Active Learning Approach For Speech Recognition	Jul 9, 2021	Active LearningAutomatic Speech Recognition	—Unverified
Improved Language Identification Through Cross-Lingual Self-Supervised Learning	Jul 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Rich Transcription-Style Automatic Speech Recognition with Semi-Supervised Learning	Jul 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers	Jul 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio	Jul 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition	Jul 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Investigation of Practical Aspects of Single Channel Speech Separation for ASR	Jul 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-Modal Transformer-Based Neural Correction Models for Automatic Speech Recognition	Jul 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unified Autoregressive Modeling for Joint End-to-End Multi-Talker Overlapped Speech Recognition and Speaker Attribute Estimation	Jul 4, 2021	Age EstimationAttribute	—Unverified
Arabic Code-Switching Speech Recognition using Monolingual Data	Jul 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition	Jul 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-user VoiceFilter-Lite via Attentive Speaker Embedding	Jul 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
StableEmit: Selection Probability Discount for Reducing Emission Latency of Streaming Monotonic Attention ASR	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word-Free Spoken Language Understanding for Mandarin-Chinese	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Named Entity Recognition in Spoken Dialog Systems by Context and Speech Pattern Modeling	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SmarTerp: A CAI System to Support Simultaneous Interpreters in Real-Time	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pretext Tasks selection for multitask self-supervised speech representation learning	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
IMS' Systems for the IWSLT 2021 Low-Resource Speech Translation Task	Jun 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 73 of 121Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified