Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 3012 papers

Title	Date	Tasks	Status
DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution	May 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
2-bit Conformer quantization for automatic speech recognition	May 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Scheduled Sampling for Neural Transducer-based ASR	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced Non-Native Speech Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Svarah: Evaluating English ASR Systems on Indian Accents	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Iteratively Improving Speech Recognition and Voice Conversion	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Personalized Predictive ASR for Latency Reduction in Voice Assistants	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Transferability of Whisper-based Representations for "In-the-Wild" Cross-Task Downstream Speech Applications	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SE-Bridge: Speech Enhancement with Consistent Brownian Bridge	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person	May 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text Generation with Speech Synthesis for ASR Data Augmentation	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
GNCformer Enhanced Self-attention for Automatic Speech Recognition	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction	May 21, 2023	Action DetectionActivity Detection	—Unverified
VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select Indic Languages	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-supervised representations in speech-based depression detection	May 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BAT: Boundary aware transducer for memory-efficient and low-latency ASR	May 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised ASR via Cross-Lingual Pseudo-Labeling	May 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks	May 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Lexical-aware Non-autoregressive Transformer-based ASR Model	May 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion	May 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Critical Appraisal of Artificial Intelligence-Mediated Communication	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OOD-Speech: A Large Bengali Speech Recognition Dataset for Out-of-Distribution Benchmarking	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations	May 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes	May 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Masked Audio Text Encoders are Effective Multi-Modal Rescorers	May 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Quran Recitation Recognition using End-to-End Deep Learning	May 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models	May 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Who Needs Decoders? Efficient Estimation of Sequence-level Attributes	May 9, 2023	AttributeAutomatic Speech Recognition	—Unverified
Multi-Temporal Lip-Audio Memory for Visual Speech Recognition	May 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lookahead When It Matters: Adaptive Non-causal Transformers for Streaming Neural Transducers	May 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Employing Hybrid Deep Neural Networks on Dari Speech	May 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders	May 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks	May 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge	May 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building a Non-native Speech Corpus Featuring Chinese-English Bilingual Children: Compilation and Rationale	Apr 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Better Domain Adaptation for Self-supervised Models: A Case Study of Child ASR	Apr 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization	Apr 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Understanding Shared Speech-Text Representations	Apr 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-regularised Minimum Latency Training for Streaming Transformer-based Speech Recognition	Apr 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Non-autoregressive End-to-end Approaches for Joint Automatic Speech Recognition and Spoken Language Understanding	Apr 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OLISIA: a Cascade System for Spoken Dialogue State Tracking	Apr 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Towards the Universal Defense for Query-Based Audio Adversarial Attacks	Apr 20, 2023	Audio FingerprintAutomatic Speech Recognition	—Unverified

Show:10 25 50

← PrevPage 21 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified