Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 3012 papers

Title	Date	Tasks	Status	Hype
AVATAR: Unconstrained Audiovisual Speech Recognition	Jun 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR	Jun 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1
Vietnamese Automatic Speech Recognition using Wav2vec 2.0	May 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment	May 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Speaker Recognition in the Wild	May 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages	May 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond	Apr 20, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Large-Scale Streaming End-to-End Speech Translation with Neural Transducers	Apr 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
PriMock57: A Dataset Of Primary Care Mock Consultations	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
indic-punct: An automatic punctuation restoration and inverse text normalization framework for Indic languages	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings	Mar 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Integrating Lattice-Free MMI into End-to-End Speech Recognition	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT	Mar 29, 2022	AllAutomatic Speech Recognition	CodeCode Available	1
Earnings-22: A Practical Benchmark for Accents in the Wild	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Automatic Speech Recognition for Speech Assessment of Persian Preschool Children	Mar 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Neural Predictor for Black-Box Adversarial Attacks on Speech Recognition	Mar 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors	Mar 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AISHELL-NER: Named Entity Recognition from Chinese Speech	Feb 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition	Feb 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Streaming Multi-Talker ASR with Token-Level Serialized Output Training	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unified Multimodal Punctuation Restoration Framework for Mixed-Modality Corpus	Jan 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model	Jan 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Regularizing End-to-End Speech Translation with Triangular Decomposition Agreement	Dec 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
X-Vector based voice activity detection for multi-genre broadcast speech-to-text	Dec 9, 2021	Action DetectionActivity Detection	CodeCode Available	1
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI	Dec 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech	Nov 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
MT3: Multi-Task Multitrack Music Transcription	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A transfer learning based approach for pronunciation scoring	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Cross Attention Augmented Transducer Networks for Simultaneous Translation	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese	Oct 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing	Oct 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications	Oct 12, 2021	Action DetectionActivity Detection	CodeCode Available	1
Interactive Feature Fusion for End-to-End Noise-Robust Speech Recognition	Oct 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of Graphemes and Syllables	Oct 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
FAST-RIR: Fast neural diffuse room impulse response generator	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Factorized Neural Transducer for Efficient Language Model Adaptation	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition	Sep 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Vietnamese end-to-end speech recognition using wav2vec 2.0	Sep 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition	Aug 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Knowledge Distillation from BERT Transformer to Speech Transformer for Intent Classification	Aug 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified