Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 6433 papers

Title	Date	Tasks	Status	Hype
Zero Shot Text to Speech Augmentation for Automatic Speech Recognition on Low-Resource Accented Speech Corpora	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Chain-of-Thought Prompting for Speech Translation	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Bio-Inspired Mamba: Temporal Locality and Bioplausible Learning in Selective State Space Models	Sep 17, 2024	Language ModelingLanguage Modelling	—Unverified	0
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models	Sep 17, 2024	Audio captioningInstruction Following	—Unverified	0
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition	Sep 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Study on Zero-shot Non-intrusive Speech Assessment using Large Language Models	Sep 16, 2024	Automatic Speech RecognitionPrompt Engineering	—Unverified	0
An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems	Sep 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Augmenting Automatic Speech Recognition Models with Disfluency Detection	Sep 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition	Sep 15, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ASR Error Correction using Large Language Models	Sep 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learnings from curating a trustworthy, well-annotated, and useful dataset of disordered English speech	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Clean Label Attacks against SLU Systems	Sep 13, 2024	Data Poisoningspeech-recognition	—Unverified	0
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?	Sep 13, 2024	Automatic Speech RecognitionDecoder	—Unverified	0
Exploring SSL Discrete Tokens for Multilingual ASR	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training	Sep 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Detecting and Defending Against Adversarial Attacks on Automatic Speech Recognition via Diffusion Models	Sep 12, 2024	Adversarial AttackAdversarial Purification	CodeCode Available	0
Auto-Landmark: Acoustic Landmark Dataset and Open-Source Toolkit for Landmark Extraction	Sep 12, 2024	Depression Detectionspeech-recognition	—Unverified	0
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language	Sep 12, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Full-text Error Correction for Chinese Speech Recognition with Large Language Model	Sep 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
WhisperNER: Unified Open Named Entity and Speech Recognition	Sep 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
Faster Speech-LLaMA Inference with Multi-token Prediction	Sep 12, 2024	DecoderPrediction	—Unverified	0
Contextualization of ASR with LLM using phonetic retrieval-based augmentation	Sep 11, 2024	Retrievalspeech-recognition	—Unverified	0
Rethinking Mamba in Speech Processing by Self-Supervised Models	Sep 11, 2024	MambaSpeech Enhancement	—Unverified	0
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
How Redundant Is the Transformer Stack in Speech Representation Models?	Sep 10, 2024	Knowledge DistillationSpeaker Identification	—Unverified	0
An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition	Sep 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings	Sep 10, 2024	Automatic Speech RecognitionDiversity	CodeCode Available	0
Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking	Sep 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
NTT Multi-Speaker ASR System for the DASR Task of CHiME-8 Challenge	Sep 9, 2024	Action DetectionActivity Detection	—Unverified	0
An investigation of modularity for noise robustness in conformer-based ASR	Sep 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Toolkit for Joint Speaker Diarization and Identification with Application to Speaker-Attributed ASR	Sep 9, 2024	Automatic Speech Recognitionspeaker-diarization	—Unverified	0
Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition Challenge	Sep 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Retrieval Augmented Correction of Named Entity Speech Recognition Errors	Sep 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation	Sep 9, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Consensus-based Distributed Quantum Kernel Learning for Speech Recognition	Sep 9, 2024	Computational EfficiencyEmotion Recognition	—Unverified	0
Evaluation of real-time transcriptions using end-to-end ASR models	Sep 9, 2024	Action DetectionActivity Detection	—Unverified	0
Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection	Sep 8, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Lightweight Transducer Based on Frame-Level Criterion	Sep 5, 2024	Decoderimbalanced classification	CodeCode Available	0
Efficient Extraction of Noise-Robust Discrete Units from Self-Supervised Speech Models	Sep 4, 2024	DecoderNoisy Speech Recognition	—Unverified	0
Quantification of stylistic differences in human- and ASR-produced transcripts of African American English	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Probing self-attention in self-supervised speech models for cross-linguistic differences	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations	Sep 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The USTC-NERCSLIP Systems for the CHiME-8 NOTSOFAR-1 Challenge	Sep 3, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model	Sep 3, 2024	Language IdentificationMixture-of-Experts	—Unverified	0
Reassessing Noise Augmentation Methods in the Context of Adversarial Speech	Sep 3, 2024	Adversarial RobustnessAutomatic Speech Recognition	—Unverified	0

Show:10 25 50

← PrevPage 12 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified