Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2651–2700 of 6433 papers

Title	Date	Tasks	Status
General-Purpose Speech Representation Learning through a Self-Supervised Multi-Granularity Framework	Feb 3, 2021	ClassificationEmotion Classification	—Unverified
Combining Punctuation and Disfluency Prediction: An Empirical Study	Oct 1, 2014	Machine TranslationPrediction	—Unverified
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior	Feb 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Scalable Architecture For Web Deployment of Spoken Dialogue Systems	May 1, 2012	Dialogue ManagementManagement	—Unverified
Enhancing the TED-LIUM Corpus with Selected Data for Language Modeling and More TED Talks	May 1, 2014	Language ModelingLanguage Modelling	—Unverified
Generating More Specific Questions for Acquiring Attributes of Unknown Concepts from Users	Aug 1, 2013	Speech RecognitionSpoken Dialogue Systems	—Unverified
Generating Robust Audio Adversarial Examples using Iterative Proportional Clipping	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating sets of related sentences from input seed features	Sep 1, 2016	Machine TranslationSpeech Recognition	—Unverified
Generating Synthetic Audio Data for Attention-Based Speech Recognition Systems	Dec 19, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating Synthetic Clinical Speech Data through Simulated ASR Deletion Error	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating Task-Pertinent sorted Error Lists for Speech Recognition	May 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generation and Pruning of Pronunciation Variants to Improve ASR Accuracy	Jun 28, 2016	speech-recognitionSpeech Recognition	—Unverified
G\'en\'eration des prononciations de noms propres \`a l'aide des Champs Al\'eatoires Conditionnels (Pronunciation generation for proper names using Conditional Random Fields) [in French]	Jun 1, 2012	Speech Recognition	—Unverified
CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition	Jan 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice	May 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generative AI and Large Language Models in Language Preservation: Opportunities and Challenges	Jan 20, 2025	Automatic Speech RecognitionDiversity	—Unverified
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech	Dec 27, 2021	Language Acquisitionspeech-recognition	—Unverified
Generative Context-aware Fine-tuning of Self-supervised Speech Models	Dec 15, 2023	Automatic Speech Recognitionnamed-entity-recognition	—Unverified
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space	Sep 19, 2024	Automatic Speech RecognitionData Augmentation	—Unverified
Generative Goal-Driven User Simulation for Dialog Management	Jul 1, 2012	ManagementSpeech Recognition	—Unverified
Enhancing Speech Recognition Decoding via Layer Aggregation	Mar 21, 2022	Language Modellingspeech-recognition	—Unverified
Generative linguistic representation for spoken language identification	Dec 18, 2023	DecoderLanguage Identification	—Unverified
A Novel End-to-End CAPT System for L2 Children Learners	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting	Sep 27, 2023	In-Context Learningspeech-recognition	—Unverified
GeneSys: Enabling Continuous Learning through Neural Network Evolution in Hardware	Aug 3, 2018	CPUGPU	—Unverified
Compact, Efficient and Unlimited Capacity: Language Modeling with Compressed Suffix Trees	Sep 1, 2015	Language ModelingLanguage Modelling	—Unverified
Geometric Understanding of Deep Learning	May 26, 2018	Deep LearningMachine Translation	—Unverified
German-Arabic Speech-to-Speech Translation for Psychiatric Diagnosis	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders	Feb 18, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders	Feb 21, 2025	Audio captioningAutomatic Speech Recognition	—Unverified
GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System	Nov 17, 2023	DecoderPrivacy Preserving	—Unverified
Gibbs Sampling with Low-Power Spiking Digital Neurons	Mar 26, 2015	General Classificationimage-classification	—Unverified
Enhancing Speech Instruction Understanding and Disambiguation in Robotics via Speech Prosody	Jun 1, 2025	In-Context Learningspeech-recognition	—Unverified
Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models	Apr 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Neural Spoken Language Recognition: An Exploration with Multilingual Datasets	Jan 19, 2025	speech-recognitionSpeech Recognition	—Unverified
An Outlyingness Matrix for Multivariate Functional Data Classification	Apr 9, 2017	ClassificationGeneral Classification	—Unverified
Advances in All-Neural Speech Recognition	Sep 19, 2016	AllLanguage Modeling	—Unverified
Globally Normalising the Transducer for Streaming Speech Recognition	Jul 20, 2023	speech-recognitionSpeech Recognition	—Unverified
An Efficient Pre-processing Method to Eliminate Adversarial Effects	May 15, 2019	General ClassificationImage Classification	—Unverified
Have best of both worlds: two-pass hybrid and E2E cascading framework for speech recognition	Oct 10, 2021	speech-recognitionSpeech Recognition	—Unverified
Global SNR Estimation of Speech Signals using Entropy and Uncertainty Estimates from Dropout Networks	Apr 12, 2018	speech-recognitionSpeech Recognition	—Unverified
GNCformer Enhanced Self-attention for Automatic Speech Recognition	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Goal-driven text descriptions for images	Aug 28, 2021	AI AgentCaption Generation	—Unverified
Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers	Nov 26, 2019	Knowledge DistillationLipreading	—Unverified
Google Neural Network Models for Edge Devices: Analyzing and Mitigating Machine Learning Inference Bottlenecks	Sep 29, 2021	Edge-computingFace Detection	—Unverified
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hear "No Evil", See "Kenansville": Efficient and Transferable Black-Box Attacks on Speech Recognition and Voice Identification Systems	Oct 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Multilingual Speech Recognition through Language Prompt Tuning and Frame-Level Language Adapter	Sep 18, 2023	parameter-efficient fine-tuningspeech-recognition	—Unverified
Bridging the Gap between Spatial and Spectral Domains: A Survey on Graph Neural Networks	Feb 27, 2020	Deep Learningimage-classification	—Unverified
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling	Dec 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 54 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified