Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4876–4900 of 6433 papers

Title	Date	Tasks	Status
Hierarchical Text Generation using an Outline	Oct 20, 2018	Dialogue Generationspeech-recognition	CodeCode Available
EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge	Oct 18, 2018	speech-recognitionSpeech Recognition	—Unverified
Exploring Textual and Speech information in Dialogue Act Classification with Speaker Domain Adaptation	Oct 17, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evolutionary Stochastic Gradient Descent for Optimization of Deep Neural Networks	Oct 16, 2018	Evolutionary AlgorithmsLanguage Modeling	CodeCode Available
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available
Robust Neural Machine Translation with Joint Textual and Phonetic Embedding	Oct 15, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Speech Recognition with Quaternion Neural Networks	Oct 15, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dense Multimodal Fusion for Hierarchically Joint Representation	Oct 8, 2018	Cross-Modal RetrievalRetrieval	—Unverified
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks	Oct 8, 2018	speech-recognitionSpeech Recognition	—Unverified
Multilingual sequence-to-sequence speech recognition: architecture, transfer learning, and language modeling	Oct 4, 2018	Language ModelingLanguage Modelling	—Unverified
Combining Natural Gradient with Hessian Free Methods for Sequence Training	Oct 3, 2018	speech-recognitionSpeech Recognition	—Unverified
Optimal Completion Distillation for Sequence Learning	Oct 2, 2018	Positionspeech-recognition	CodeCode Available
Learning Noise-Invariant Representations for Robust Speech Recognition	Oct 2, 2018	Data AugmentationRepresentation Learning	—Unverified
Listening Comprehension over Argumentative Content	Oct 1, 2018	Automatic Speech Recognition (ASR)Machine Reading Comprehension	—Unverified
Acoustic Word Disambiguation with Phonogical Features in Danish ASR	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatically Tailoring Unsupervised Morphological Segmentation to the Language	Oct 1, 2018	Machine TranslationSegmentation	—Unverified
The AFRL IWSLT 2018 Systems: What Worked, What Didn’t	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Extended Bit-Plane Compression for Convolutional Neural Network Accelerators	Oct 1, 2018	image-classificationImage Classification	CodeCode Available
MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling	Oct 1, 2018	Decision MakingDialogue Management	—Unverified
使用長短期記憶類神經網路建構中文語音辨識器之研究 (A study on Mandarin speech recognition using Long Short-Term Memory neural network) [In Chinese]	Oct 1, 2018	speech-recognitionSpeech Recognition	—Unverified
Deep Learning for Social Media Health Text Classification	Oct 1, 2018	Binary ClassificationClassification	—Unverified
The Sogou-TIIC Speech Translation System for IWSLT 2018	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Words Worth: Verbal Content and Hirability Impressions in YouTube Video Resumes	Oct 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Session-level Language Modeling for Conversational Speech	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 196 of 258Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified