Automatic Speech Recognition (ASR)

Automatic Speech Recognition (ASR) involves converting spoken language into written text. It is designed to transcribe spoken words into text in real-time, allowing people to communicate with computers, mobile devices, and other technology using their voice. The goal of Automatic Speech Recognition is to accurately transcribe speech, taking into account variations in accent, pronunciation, and speaking style, as well as background noise and other factors that can affect speech quality.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 3012 papers

Title	Date	Tasks	Status	Hype
Accented Speech Recognition With Accent-specific Codebooks	Oct 24, 2023	Accented Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation	Oct 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation	Oct 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Intelligibility prediction with a pretrained noise-robust automatic speech recognition model	Oct 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unintended Memorization in Large ASR Models, and How to Mitigate It	Oct 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Generative error correction for code-switching speech recognition using large language models	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advanced accent/dialect identification and accentedness assessment with multi-embedding models and automatic speech recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System	Oct 17, 2023	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Correction Focused Language Model Training for Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Zipformer: A faster and better encoder for automatic speech recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Detecting Speech Abnormalities with a Perceiver-based Sequence Classifier that Leverages a Universal Speech Model	Oct 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advancing Test-Time Adaptation in Wild Acoustic Test Settings	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation	Oct 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text	Oct 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition	Oct 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Adapting the adapters for code-switching in multilingual ASR	Oct 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Discriminative Speech Recognition Rescoring with Pre-trained Language Models	Oct 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Acoustic Model Fusion for End-to-end Speech Recognition	Oct 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
No Pitch Left Behind: Addressing Gender Unbalance in Automatic Speech Recognition through Pitch Manipulation	Oct 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition	Oct 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis	Oct 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ed-cec: improving rare word recognition using asr postprocessing based on error detection and context-aware error correction	Oct 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Spike-Triggered Contextual Biasing for End-to-End Mandarin Speech Recognition	Oct 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A privacy-preserving method using secret key for convolutional neural network-based speech classification	Oct 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Integrated Algorithm for Robust and Imperceptible Audio Adversarial Examples	Oct 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models	Oct 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions	Oct 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition	Oct 2, 2023	AllAutomatic Speech Recognition	—Unverified	0
AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR	Sep 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The Gift of Feedback: Improving ASR Model Quality by Learning from User Corrections through Federated Learning	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Enhancing Code-switching Speech Recognition with Interactive Language Biases	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hierarchical Cross-Modality Knowledge Transfer with Sinkhorn Attention for CTC-based ASR	Sep 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models	Sep 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Speech collage: code-switched audio generation by collaging monolingual corpora	Sep 27, 2023	Audio GenerationAutomatic Speech Recognition	CodeCode Available	1
Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition	Sep 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Segmentation-Free Streaming Machine Translation	Sep 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Segment-Level Vectorized Beam Search Based on Partially Autoregressive Inference	Sep 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Connecting Speech Encoder and Large Language Model for ASR	Sep 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Cross-modal Alignment with Optimal Transport for CTC-based ASR	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Human Transcription Quality Improvement	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Speech enhancement with frequency domain auto-regressive modeling	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Importance of Smoothness Induced by Optimizers in FL4ASR: Towards Understanding Federated Learning for End-to-End ASR	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Affect Recognition in Conversations Using Large Language Models	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 13 of 61Next →

All datasets LRS2 RealMAN Sagalee HUI speech corpus LRS3-TED M-AILabs speech dataset The Spoken Wikipedia Corpora Voxforge German VoxPopuli

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TM-CTC	Test WER	10.1	—	Unverified
2	TM-seq2seq	Test WER	9.7	—	Unverified
3	CTC/attention	Test WER	8.2	—	Unverified
4	LF-MMI TDNN	Test WER	6.7	—	Unverified
5	Whisper-LLaMA	Test WER	6.6	—	Unverified
6	End2end Conformer	Test WER	3.9	—	Unverified
7	End2end Conformer	Test WER	3.7	—	Unverified
8	MoCo + wav2vec (w/o extLM)	Test WER	2.7	—	Unverified
9	CTC/Attention	Test WER	1.5	—	Unverified
10	Whisper	Test WER	1.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SpatialNet	CER	14.5	—	Unverified
2	CleanMel-L-mask	CER	14.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer	Test WER	15.32	—	Unverified
2	Whisper-largev3-finetuned	Test WER	10.82	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	1.89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DistillAV	WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	4.28	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	8.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer	WER (%)	3.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer Transducer (German)	WER (%)	8.98	—	Unverified