Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4951–5000 of 6433 papers

Title	Date	Tasks	Status
Using a Serious Game to Collect a Child Learner Speech Corpus	May 1, 2014	Machine TranslationSpeech Recognition	—Unverified
Using Automatic Speech Recognition in Spoken Corpus Curation	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems	Jul 5, 2023	AnatomyData Augmentation	—Unverified
Using Deep Learning Techniques and Inferential Speech Statistics for AI Synthesised Speech Recognition	Jul 23, 2021	Audio Synthesisspeech-recognition	—Unverified
Using Discourse Information for Education with a Spanish-Chinese Parallel Corpus	May 1, 2018	Speech Recognition	—Unverified
Using Ellipsis Detection and Word Similarity for Transformation of Spoken Language into Grammatically Valid Sentences	Jun 1, 2014	Semantic Textual SimilaritySpeech Recognition	—Unverified
Using English Acoustic Models for Hindi Automatic Speech Recognition	Dec 1, 2012	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition	Jan 6, 2023	Domain AdaptationGPU	—Unverified
Using heterogeneity in semi-supervised transcription hypotheses to improve code-switched speech recognition	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Kaldi for Automatic Speech Recognition of Conversational Austrian German	Jan 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Large Language Model for End-to-End Chinese ASR and NER	Jan 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using multiple ASR hypotheses to boost i18n NLU performance	Dec 7, 2020	Abstractive Text SummarizationAutomatic Speech Recognition	—Unverified
Using multi-task learning to improve the performance of acoustic-to-word and conventional hybrid models	Feb 2, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Neural Networks for Modeling and Representing Natural Languages	Aug 1, 2014	Machine TranslationSpeech Recognition	—Unverified
Using Non-invertible Data Transformations to Build Adversarial-Robust Neural Networks	Oct 6, 2016	Autonomous VehiclesDimensionality Reduction	—Unverified
Using of heterogeneous corpora for training of an ASR system	Jun 1, 2017	speech-recognitionSpeech Recognition	—Unverified
Using Ontology-based Approaches to Representing Speech Transcripts for Automated Speech Scoring	Jun 1, 2012	Speech Recognition	—Unverified
Using Out-of-Domain Data for Lexical Addressee Detection in Human-Human-Computer Dialog	Jun 1, 2013	Speech Recognition	—Unverified
Using Related Languages to Enhance Statistical Language Models	Jun 1, 2016	Automatic Speech Recognition (ASR)Domain Adaptation	—Unverified
Using Spoken Word Posterior Features in Neural Machine Translation	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using sub-word n-gram models for dealing with OOV in large vocabulary speech recognition for Latvian	May 1, 2015	Language Modellingspeech-recognition	—Unverified
Using Synthetic Audio to Improve The Recognition of Out-Of-Vocabulary Words in End-To-End ASR Systems	Nov 23, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Teacher-Student Model For Emotional Speech Recognition[In Chinese]	Nov 1, 2017	speech-recognitionSpeech Recognition	—Unverified
Using Text Injection to Improve Recognition of Personal Identifiers in Speech	Aug 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using the TED Talks to Evaluate Spoken Post-editing of Machine Translation	May 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using Tone Information in Thai Spelling Speech Recognition	Dec 1, 2014	speech-recognitionSpeech Recognition	—Unverified
Using Topological Framework for the Design of Activation Function and Model Pruning in Deep Neural Networks	Sep 3, 2021	Binary Classificationspeech-recognition	—Unverified
Using Transformers to Provide Teachers with Personalized Feedback on their Classroom Discourse: The TalkMoves Application	Apr 29, 2021	speech-recognitionSpeech Recognition	—Unverified
USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models	Dec 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder	Feb 12, 2022	DecoderLanguage Modeling	—Unverified
Utilizing constituent structure for compound analysis	May 1, 2014	Information RetrievalMachine Translation	—Unverified
Utterance Intent Classification of a Spoken Dialogue System with Efficiently Untied Recursive Autoencoders	Aug 1, 2017	Automatic Speech Recognition (ASR)Classification	—Unverified
Utterance-level neural confidence measure for end-to-end children speech recognition	Sep 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones	Jul 31, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
UWSpeech: Speech to Speech Translation for Unwritten Languages	Jun 14, 2020	speech-recognitionSpeech Recognition	—Unverified
V2S attack: building DNN-based voice conversion from automatic speaker verification	Aug 5, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VAD-free Streaming Hybrid CTC/Attention ASR for Unsegmented Recording	Jul 15, 2021	Action DetectionActivity Detection	—Unverified
VADOI:Voice-Activity-Detection Overlapping Inference For End-to-end Long-form Speech Recognition	Feb 22, 2022	Action DetectionActivity Detection	—Unverified
Vaidya: A Spoken Dialog System for Health Domain	Dec 1, 2016	Medical DiagnosisSpeech Recognition	—Unverified
VAIS ASR: Building a conversational speech recognition system using language model combination	Oct 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select Indic Languages	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VALLR: Visual ASR Language Model for Lip Reading	Mar 27, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified
ValSub: Subsampling Validation Data to Mitigate Forgetting during ASR Personalization	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition	Sep 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Variable Attention Masking for Configurable Transformer Transducer Speech Recognition	Nov 2, 2022	speech-recognitionSpeech Recognition	—Unverified
Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech Recognition	Jan 24, 2022	speech-recognitionSpeech Recognition	—Unverified
Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling	Sep 21, 2023	Classificationspeech-recognition	—Unverified
VAST: A Corpus of Video Annotation for Speech Technologies	May 1, 2018	Action DetectionLanguage Identification	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference	Feb 14, 2022	Quantizationspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 100 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified