Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3301–3350 of 6433 papers

Title	Date	Tasks	Status
4-bit Quantization of LSTM-based Speech Recognition Models	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task-aware Warping Factors in Mask-based Speech Enhancement	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring Retraining-Free Speech Recognition for Intra-sentential Code-Switching	Aug 27, 2021	Language ModelingLanguage Modelling	—Unverified
Full Attention Bidirectional Deep Learning Structure for Single Channel Speech Enhancement	Aug 27, 2021	Audio Signal ProcessingSpeech Enhancement	—Unverified
Position-Invariant Truecasing with a Word-and-Character Hierarchical Recurrent Neural Network	Aug 26, 2021	Language ModelingLanguage Modelling	—Unverified
Cross-domain Single-channel Speech Enhancement Model with Bi-projection Fusion Module for Noise-robust ASR	Aug 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Reducing Exposure Bias in Training Recurrent Neural Network Transducers	Aug 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Graph Neural Networks: Methods, Applications, and Opportunities	Aug 24, 2021	Self-Supervised Learningspeech-recognition	—Unverified
Subject Envelope based Multitype Reconstruction Algorithm of Speech Samples of Parkinson's Disease	Aug 23, 2021	Clusteringspeech-recognition	—Unverified
A Unified Transformer-based Framework for Duplex Text Normalization	Aug 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Speech Recognition And Limited Vocabulary: A Survey	Aug 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention Layers	Aug 22, 2021	speech-recognitionSpeech Recognition	—Unverified
Multilingual Speech Recognition for Low-Resource Indian Languages using Multi-Task conformer	Aug 22, 2021	DecoderMachine Translation	—Unverified
A Dual-Decoder Conformer for Multilingual Speech Recognition	Aug 22, 2021	DecoderLanguage Identification	—Unverified
Hierarchical Summarization for Longform Spoken Dialog	Aug 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multi-level Acoustic Feature Extraction Framework for Transformer Based End-to-End Speech Recognition	Aug 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Light-weight contextual spelling correction model for customizing transducer-based speech recognition systems	Aug 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DEXTER: Deep Encoding of External Knowledge for Named Entity Recognition in Virtual Assistants	Aug 15, 2021	named-entity-recognitionNamed Entity Recognition	—Unverified
Multilingual training set selection for ASR in under-resourced Malian languages	Aug 13, 2021	Humanitarianspeech-recognition	—Unverified
Dereverberation of Autoregressive Envelopes for Far-field Speech Recognition	Aug 12, 2021	Speech Dereverberationspeech-recognition	—Unverified
StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized by Automatic Speech Recognition	Aug 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Speech Recognition With Joint Dereverberation Of Sub-Band Autoregressive Envelopes	Aug 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Time-Frequency Localization Using Deep Convolutional Maxout Neural Network in Persian Speech Recognition	Aug 9, 2021	speech-recognitionSpeech Recognition	—Unverified
The HW-TSC's Offline Speech Translation Systems for IWSLT 2021 Evaluation	Aug 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An empirical assessment of deep learning approaches to task-oriented dialog management	Aug 7, 2021	Managementspeech-recognition	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Out-of-Domain Generalization from a Single Source: An Uncertainty Quantification Approach	Aug 5, 2021	Domain GeneralizationImage Classification	—Unverified
Fast frequency modulation is encoded according to the listener expectations in the human subcortical auditory pathway	Aug 4, 2021	speech-recognitionSpeech Recognition	—Unverified
Improving Distinction between ASR Errors and Speech Disfluencies with Feature Space Interpolation	Aug 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Identification	Aug 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Domain Adaptation in Speech Recognition using Phonetic Features	Aug 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-Temporal Sparsity	Aug 4, 2021	speech-recognitionSpeech Recognition	—Unverified
Blind and neural network-guided convolutional beamformer for joint denoising, dereverberation, and source separation	Aug 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bifocal Neural ASR: Exploiting Keyword Spotting for Inference Optimization	Aug 3, 2021	Inference OptimizationKeyword Spotting	—Unverified
Learning a Neural Diff for Speech Models	Aug 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Amortized Neural Networks for Low-Latency Speech Recognition	Aug 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Role of Phonetic Units in Speech Emotion Recognition	Aug 2, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adversarial Data Augmentation for Disordered Speech Recognition	Aug 2, 2021	Data Augmentationspeech-recognition	—Unverified
Decoupling recognition and transcription in Mandarin ASR	Aug 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic recognition of suprasegmentals in speech	Aug 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MOHAQ: Multi-Objective Hardware-Aware Quantization of Recurrent Neural Networks	Aug 2, 2021	Quantizationspeech-recognition	—Unverified
User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue Systems	Aug 2, 2021	speech-recognitionSpeech Recognition	—Unverified
On Knowledge Distillation for Translating Erroneous Speech Transcriptions	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
基于改进Conformer的新闻领域端到端语音识别(End-to-End Speech Recognition in News Field based on Conformer)	Aug 1, 2021	speech-recognitionSpeech Recognition	—Unverified
Avengers, Ensemble! Benefits of ensembling in grapheme-to-phoneme prediction	Aug 1, 2021	speech-recognitionSpeech Recognition	—Unverified
KIT’s IWSLT 2021 Offline Speech Translation System	Aug 1, 2021	Machine Translationspeech-recognition	—Unverified
Interactive Reinforcement Learning for Table Balancing Robot	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic generation of a 3D sign language avatar on AR glasses given 2D videos of human signers	Aug 1, 2021	Machine Translationspeech-recognition	—Unverified
QASR: QCRI Aljazeera Speech Resource A Large Scale Annotated Arabic Speech Corpus	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
IMS’ Systems for the IWSLT 2021 Low-Resource Speech Translation Task	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 67 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified