Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 3012 papers

Title	Date	Tasks	Status	Hype
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition	May 16, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models	Jul 5, 2024	Adversarial AttackAutomatic Speech Recognition	CodeCode Available	1
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI	Dec 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context	May 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CopyNE: Better Contextual ASR by Copying Named Entities	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CTC-synchronous Training for Monotonic Attention Model	May 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition	Mar 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers	Apr 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Combining Frame-Synchronous and Label-Synchronous Systems for Speech Recognition	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Can Contextual Biasing Remain Effective with Whisper and GPT-2?	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation	Oct 24, 2022	Action DetectionActivity Detection	CodeCode Available	1
Can we use Common Voice to train a Multi-Speaker TTS system?	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications	Oct 12, 2021	Action DetectionActivity Detection	CodeCode Available	1
Brazilian Portuguese Speech Recognition Using Wav2vec 2.0	Jul 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised learning of speech representations	Oct 5, 2022	Automatic Speech Recognition (ASR)Clustering	CodeCode Available	1
CL-MASR: A Continual Learning Benchmark for Multilingual ASR	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Common Voice: A Massively-Multilingual Speech Corpus	Dec 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Back Translation for Speech-to-text Translation Without Transcripts	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AV Taris: Online Audio-Visual Speech Recognition	Dec 14, 2020	Action DetectionActivity Detection	CodeCode Available	1
BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm	Dec 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Continuous speech separation: dataset and analysis	Jan 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AVATAR: Unconstrained Audiovisual Speech Recognition	Jun 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Variance-Preserving Interpolation Approach for Diffusion Models with Applications to Single Channel Speech Enhancement and Recognition	May 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 121Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified