Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 3012 papers

Title	Date	Tasks	Status	Hype	Score
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Multilingual and code-switching ASR challenges for low resource Indian languages	Apr 1, 2021	Automatic Speech Recognition (ASR)Sentence	CodeCode Available	1	5
A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement	Jun 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond	Apr 20, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Toolbox for Construction and Analysis of Speech Datasets	Apr 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Neural Predictor for Black-Box Adversarial Attacks on Speech Recognition	Mar 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ATCO2 corpus: A Large-Scale Dataset for Research on Automatic Speech Recognition and Natural Language Understanding of Air Traffic Control Communications	Nov 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Distilling a Pretrained Language Model to a Multilingual ASR Model	Jun 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Distilling Knowledge from Ensembles of Acoustic Models for Joint CTC-Attention End-to-End Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving Self-supervised Pre-training using Accent-Specific Codebooks	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English	Aug 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Adaptation of Whisper models to child speech recognition	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Dompteur: Taming Audio Adversarial Examples	Feb 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
DuplexMamba: Enhancing Real-time Speech Conversations with Duplex and Streaming Capabilities	Feb 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
EnCodecMAE: Leveraging neural codecs for universal audio representation learning	Sep 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving Whispered Speech Recognition Performance using Pseudo-whispered based Data Augmentation	Nov 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Incorporating External POS Tagger for Punctuation Restoration	Jun 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition	Feb 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition	Aug 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Efficient Neural Architecture Search for End-to-end Speech Recognition via Straight-Through Gradients	Nov 11, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model	Jan 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A transfer learning based approach for pronunciation scoring	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-end Named Entity Recognition from English Speech	May 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving Mandarin Speech Recogntion with Block-augmented Transformer	Jul 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-End Speech Recognition and Disfluency Removal	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Regularizing End-to-End Speech Translation with Triangular Decomposition Agreement	Dec 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-End Speech Recognition from Federated Acoustic Models	Apr 29, 2021	2k4k	CodeCode Available	1	5
Representation Learning for Sequence Data with Deep Autoencoding Predictive Components	Oct 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One	Feb 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention	Oct 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Espresso: A Fast End-to-end Neural Speech Recognition Toolkit	Sep 18, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction	Jul 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi	Apr 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Extending Whisper with prompt tuning to target-speaker ASR	Dec 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
FAST-RIR: Fast neural diffuse room impulse response generator	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ASR Error Correction with Constrained Decoding on Operation Prediction	Aug 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving RNN Transducer Based ASR with Auxiliary Tasks	Nov 5, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Radically Old Way of Computing Spectra: Applications in End-to-End ASR	Mar 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Snips Voice Platform: an embedded Spoken Language Understanding system for private-by-design voice interfaces	May 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset	May 12, 2024	Action SpottingAutomatic Speech Recognition	CodeCode Available	1	5
indic-punct: An automatic punctuation restoration and inverse text normalization framework for Indic languages	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ArTST: Arabic Text and Speech Transformer	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks	Oct 7, 2016	Anomaly DetectionAutomatic Speech Recognition	CodeCode Available	1	5
A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5

Show:10 25 50

← PrevPage 5 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified