Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 3012 papers

Title	Date	Tasks	Status	Hype
Robust ASR Error Correction with Conservative Data Filtering	Jul 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models	Jul 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors	Jul 16, 2024	Automatic Phoneme RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data	Jul 15, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Textless Dependency Parsing by Labeled Sequence Prediction	Jul 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation	Jul 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing	Jul 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation	Jul 8, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Semi-supervised Learning for Code-Switching ASR with Large Language Model Filter	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Romanization Encoding For Multilingual ASR	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models	Jul 5, 2024	Adversarial AttackAutomatic Speech Recognition	CodeCode Available	1
LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units	Jul 5, 2024	Acoustic Unit DiscoveryAutomatic Speech Recognition	CodeCode Available	2
Written Term Detection Improves Spoken Term Detection	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis	Jul 4, 2024	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Multi-Convformer: Extending Conformer with Multiple Convolution Kernels	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving Self-supervised Pre-training using Accent-Specific Codebooks	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations	Jul 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models	Jul 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition	Jun 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Tradition or Innovation: A Comparison of Modern ASR Methods for Forced Alignment	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Dynamic Data Pruning for Automatic Speech Recognition	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automatic Speech Recognition for Hindi	Jun 26, 2024	Action DetectionActivity Detection	—Unverified	0
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs	Jun 26, 2024	ArzEn Code-switched Translation to araArzEn Code-switched Translation to eng	CodeCode Available	1
FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Sequential Editing for Lifelong Training of Speech Recognition Models	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024	Jun 24, 2024	Action DetectionActivity Detection	—Unverified	0
Decoder-only Architecture for Streaming End-to-end Speech Recognition	Jun 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
PI-Whisper: Designing an Adaptive and Incremental Automatic Speech Recognition System for Edge Devices	Jun 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Perception of Phonological Assimilation by Neural Speech Recognition Models	Jun 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ManWav: The First Manchu ASR Model	Jun 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control	Jun 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unsupervised Online Continual Learning for Automatic Speech Recognition	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Transcribe, Align and Segment: Creating speech datasets for low-resource languages	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Performant ASR Models for Medical Entities in Accented Speech	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automatic Speech Recognition for Biomedical Data in Bengali Language	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ROAR: Reinforcing Original to Augmented Data Ratio Dynamics for Wav2Vec2.0 Based ASR	Jun 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Optimizing Byte-level Representation for End-to-end ASR	Jun 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 8 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified