Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2801–2850 of 6433 papers

Title	Date	Tasks	Status	Hype
Phone Based Keyword Spotting for Transcribing Very Low Resource Languages	Dec 1, 2021	Dynamic Time WarpingKeyword Spotting	—Unverified	0
Predicting lexical skills from oral reading with acoustic measures	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Understanding Adaptive, Multiscale Temporal Integration In Deep Speech Recognition Systems	Dec 1, 2021	speech-recognitionSpeech Recognition	CodeCode Available	0
Speech-T: Transducer for Text to Speech and Beyond	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition	Nov 29, 2021	QuantizationSensitivity	—Unverified	0
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition	Nov 29, 2021	Neural Architecture SearchQuantization	—Unverified	0
Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization	Nov 29, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Do We Still Need Automatic Speech Recognition for Spoken Language Understanding?	Nov 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Effect of noise suppression losses on speech distortion and ASR performance	Nov 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance	Nov 23, 2021	speech-recognitionSpeech Recognition	—Unverified	0
SpeechMoE2: Mixture-of-Experts Model with Improved Routing	Nov 23, 2021	Computational EfficiencyMixture-of-Experts	—Unverified	0
Romanian Speech Recognition Experiments from the ROBIN Project	Nov 23, 2021	Language Modellingspeech-recognition	CodeCode Available	1
Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature	Nov 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Capitalization and Punctuation Restoration: a Survey	Nov 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Spoken Keyword Spotting: An Overview	Nov 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Switching Independent Vector Analysis and Its Extension to Blind and Spatially Guided Convolutional Beamforming Algorithms	Nov 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A comparison of streaming models and data augmentation methods for robust speech recognition	Nov 19, 2021	Data AugmentationRobust Speech Recognition	—Unverified	0
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech	Nov 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages	Nov 19, 2021	Data Augmentationspeech-recognition	—Unverified	0
Lattention: Lattice-attention in ASR rescoring	Nov 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation	Nov 18, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified	0
Towards Measuring Fairness in Speech Recognition: Casual Conversations Dataset Transcriptions	Nov 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage	Nov 17, 2021	speech-recognitionSpeech Recognition	—Unverified	0
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale	Nov 17, 2021	Language IdentificationRepresentation Learning	CodeCode Available	1
Subject Enveloped Deep Sample Fuzzy Ensemble Learning Algorithm of Parkinson's Speech Data	Nov 17, 2021	DiagnosticEnsemble Learning	—Unverified	0
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified	0
Progressive Down-Sampling for Acoustic Encoding	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Two Front-Ends, One Model : Fusing Heterogeneous Speech Features for Low Resource ASR with Multilingual Pre-Training	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-supervised Semantic-driven Phoneme Discovery for Zero-resource Speech Recognition	Nov 16, 2021	Phoneme RecognitionRepresentation Learning	CodeCode Available	0
Speech-to-SQL Parsing: Error Correction with Multi-modal Representations	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Heterogeneous Language Model Optimization in Automatic Speech Recognition	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unified Speech-Text Pre-training for Speech Translation and Recognition	Nov 16, 2021	DecoderMulti-Task Learning	—Unverified	0
Who Are We Talking About? Handling Person Names in Speech Translation	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel End-to-End CAPT System for L2 Children Learners	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Modeling speech recognition and synthesis simultaneously: Encoding and decoding lexical and sublexical semantic information into speech with no access to speech data	Nov 16, 2021	speech-recognitionSpeech Recognition	—Unverified	0
On Spoken Language Understanding Systems for Low Resourced Languages	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speech Synthesis for Low Resource Languages using Transliteration Enabled Transfer Learning	Nov 16, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Attention-based Multi-hypothesis Fusion for Speech Summarization	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Unsupervised Speech Enhancement with speech recognition embedding and disentanglement losses	Nov 16, 2021	DisentanglementSpeech Enhancement	—Unverified	0
Integrated Semantic and Phonetic Post-correction for Chinese Speech Recognition	Nov 16, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
Attention based end to end Speech Recognition for Voice Search in Hindi and English	Nov 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint Unsupervised and Supervised Training for Multilingual ASR	Nov 15, 2021	Language ModelingLanguage Modelling	—Unverified	0
Analysis of Data Augmentation Methods for Low-Resource Maltese ASR	Nov 15, 2021	Data AugmentationLanguage Modeling	—Unverified	0
Binary classification of spoken words with passive phononic metamaterials	Nov 14, 2021	Binary ClassificationClassification	—Unverified	0
Prediction of Listener Perception of Argumentative Speech in a Crowdsourced Dataset Using (Psycho-)Linguistic and Fluency Features	Nov 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Measuring the Contribution of Multiple Model Representations in Detecting Adversarial Instances	Nov 13, 2021	speech-recognitionSpeech Recognition	CodeCode Available	0
A Convolutional Neural Network Based Approach to Recognize Bangla Spoken Digits from Speech Signal	Nov 12, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Can neural networks predict dynamics they have never seen?	Nov 12, 2021	Machine Translationobject-detection	—Unverified	0
Self-Normalized Importance Sampling for Neural Language Modeling	Nov 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 57 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified