Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 3012 papers

Title	Date	Tasks	Status	Hype	Score
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Brazilian Portuguese Speech Recognition Using Wav2vec 2.0	Jul 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Can we use Common Voice to train a Multi-Speaker TTS system?	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Can Contextual Biasing Remain Effective with Whisper and GPT-2?	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
AVLnet: Learning Audio-Visual Language Representations from Instructional Videos	Jun 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Adaptation of Whisper models to child speech recognition	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention	Oct 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
CL-MASR: A Continual Learning Benchmark for Multilingual ASR	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Adapting End-to-End Speech Recognition for Readable Subtitles	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Automatic Disfluency Detection from Untranscribed Speech	Nov 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish	Jul 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-End Automatic Speech Recognition for Gujarati	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Combining Frame-Synchronous and Label-Synchronous Systems for Speech Recognition	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
EnCodecMAE: Leveraging neural codecs for universal audio representation learning	Sep 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Complex Dynamic Neurons Improved Spiking Transformer Network for Efficient Automatic Speech Recognition	Feb 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models	Sep 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning	Nov 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Confidence Estimation for Attention-based Sequence-to-sequence Models for Speech Recognition	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context	May 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI	Dec 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
CopyNE: Better Contextual ASR by Copying Named Entities	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving RNN Transducer Based ASR with Auxiliary Tasks	Nov 5, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks	Oct 7, 2016	Anomaly DetectionAutomatic Speech Recognition	CodeCode Available	1	5
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models	Jul 5, 2024	Adversarial AttackAutomatic Speech Recognition	CodeCode Available	1	5
indic-punct: An automatic punctuation restoration and inverse text normalization framework for Indic languages	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Continuous speech separation: dataset and analysis	Jan 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Automatic Severity Classification of Dysarthric speech by using Self-supervised Model with Multi-task Learning	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
End-to-end Named Entity Recognition from English Speech	May 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Audio-Visual Efficient Conformer for Robust Speech Recognition	Jan 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Accented Speech Recognition With Accent-specific Codebooks	Oct 24, 2023	Accented Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1	5
BENDR: using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data	Jan 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Attentive Sequence-to-Sequence Learning for Diacritic Restoration of Yorùbá Language Text	Apr 3, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1	5
End-to-End Speech Recognition and Disfluency Removal	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Attention-based Audio-Visual Fusion for Robust Automatic Speech Recognition	Sep 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A convolutional neural-network model of human cochlear mechanics and filter tuning for real-time applications	Apr 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Earnings-22: A Practical Benchmark for Accents in the Wild	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A context-aware knowledge transferring strategy for CTC-based ASR	Oct 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A transfer learning based approach for pronunciation scoring	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Attention-based Contextual Language Model Adaptation for Speech Recognition	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition	Feb 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English	Aug 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond	Apr 20, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ASR Error Correction with Constrained Decoding on Operation Prediction	Aug 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement	Jun 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Advancing Test-Time Adaptation in Wild Acoustic Test Settings	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified