Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2651–2700 of 6433 papers

Title	Date	Tasks	Status
Class-Based Language Modeling for Translating into Morphologically Rich Languages	Aug 1, 2014	Domain AdaptationLanguage Modeling	—Unverified
Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Federated Domain Adaptation for ASR with Full Self-Supervision	Mar 30, 2022	Automatic Speech Recognition (ASR)Data Augmentation	—Unverified
Feature selection using Fisher's ratio technique for automatic speech recognition	May 13, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Citrinet: Closing the Gap between Non-Autoregressive and Autoregressive End-to-End Models for Automatic Speech Recognition	Apr 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating More Specific Questions for Acquiring Attributes of Unknown Concepts from Users	Aug 1, 2013	Speech RecognitionSpoken Dialogue Systems	—Unverified
Generating Robust Audio Adversarial Examples using Iterative Proportional Clipping	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating sets of related sentences from input seed features	Sep 1, 2016	Machine TranslationSpeech Recognition	—Unverified
A Random Gossip BMUF Process for Neural Language Modeling	Sep 19, 2019	GPULanguage Modeling	—Unverified
Generating Synthetic Clinical Speech Data through Simulated ASR Deletion Error	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial synthesis based data-augmentation for code-switched spoken language identification	May 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generation and Pruning of Pronunciation Variants to Improve ASR Accuracy	Jun 28, 2016	speech-recognitionSpeech Recognition	—Unverified
G\'en\'eration des prononciations de noms propres \`a l'aide des Champs Al\'eatoires Conditionnels (Pronunciation generation for proper names using Conditional Random Fields) [in French]	Jun 1, 2012	Speech Recognition	—Unverified
On Architectures and Training for Raw Waveform Feature Extraction in ASR	Apr 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement	Jun 14, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified
Generative AI and Large Language Models in Language Preservation: Opportunities and Challenges	Jan 20, 2025	Automatic Speech RecognitionDiversity	—Unverified
CIF-based Collaborative Decoding for End-to-end Contextual Speech Recognition	Dec 17, 2020	Decoderspeech-recognition	—Unverified
Generative Context-aware Fine-tuning of Self-supervised Speech Models	Dec 15, 2023	Automatic Speech Recognitionnamed-entity-recognition	—Unverified
Feature Normalisation for Robust Speech Recognition	Jul 14, 2015	Robust Speech Recognitionspeech-recognition	—Unverified
Generative Goal-Driven User Simulation for Dialog Management	Jul 1, 2012	ManagementSpeech Recognition	—Unverified
Feature Learning with Gaussian Restricted Boltzmann Machine for Robust Speech Recognition	Sep 23, 2013	Robust Speech Recognitionspeech-recognition	—Unverified
Generative linguistic representation for spoken language identification	Dec 18, 2023	DecoderLanguage Identification	—Unverified
CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning	Mar 22, 2023	Contrastive LearningRetrieval	—Unverified
Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting	Sep 27, 2023	In-Context Learningspeech-recognition	—Unverified
GeneSys: Enabling Continuous Learning through Neural Network Evolution in Hardware	Aug 3, 2018	CPUGPU	—Unverified
Feature-based Neural Language Model and Chinese Word Segmentation	Oct 1, 2013	Chinese Word SegmentationChunking	—Unverified
Geometric Understanding of Deep Learning	May 26, 2018	Deep LearningMachine Translation	—Unverified
German-Arabic Speech-to-Speech Translation for Psychiatric Diagnosis	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders	Feb 18, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition	Jun 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System	Nov 17, 2023	DecoderPrivacy Preserving	—Unverified
Gibbs Sampling with Low-Power Spiking Digital Neurons	Mar 26, 2015	General Classificationimage-classification	—Unverified
FAT: Training Neural Networks for Reliable Inference Under Hardware Faults	Nov 11, 2020	image-classificationImage Classification	—Unverified
Arabic Language WEKA-Based Dialect Classifier for Arabic Automatic Speech Recognition Transcripts	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text	Oct 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Churn Identification in Microblogs using Convolutional Neural Networks with Structured Logical Knowledge	Sep 1, 2017	Language ModelingLanguage Modelling	—Unverified
Globally Normalising the Transducer for Streaming Speech Recognition	Jul 20, 2023	speech-recognitionSpeech Recognition	—Unverified
Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network	Apr 22, 2021	Domain AdaptationLanguage Modeling	—Unverified
Fast Syntactic Analysis for Statistical Language Modeling via Substructure Sharing and Uptraining	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
Global SNR Estimation of Speech Signals using Entropy and Uncertainty Estimates from Dropout Networks	Apr 12, 2018	speech-recognitionSpeech Recognition	—Unverified
GNCformer Enhanced Self-attention for Automatic Speech Recognition	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Goal-driven text descriptions for images	Aug 28, 2021	AI AgentCaption Generation	—Unverified
Chunked Attention-based Encoder-Decoder Model for Streaming Speech Recognition	Sep 15, 2023	DecoderForm	—Unverified
Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper	Sep 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast Spectrogram Inversion using Multi-head Convolutional Neural Networks	Aug 20, 2018	speech-recognitionSpeech Recognition	—Unverified
Faster, Simpler and More Accurate Hybrid ASR Systems Using Wordpieces	May 19, 2020	Speech Recognition	—Unverified
CHISPA on the GO: A mobile Chinese-Spanish translation service for travellers in trouble	Apr 1, 2014	Image RetrievalInformation Retrieval	—Unverified
Arabic Dialect Processing Tutorial	Jun 1, 2012	Machine TranslationSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 54 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified