Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4776–4800 of 6433 papers

Title	Date	Tasks	Status
Scalable language model adaptation for spoken dialogue systems	Dec 11, 2018	Language ModelingLanguage Modelling	—Unverified
To Reverse the Gradient or Not: An Empirical Comparison of Adversarial and Multi-task Learning in Speech Recognition	Dec 9, 2018	Multi-Task LearningSpeaker Recognition	—Unverified
The USTC-NEL Speech Translation system at IWSLT 2018	Dec 6, 2018	Machine Translationspeech-recognition	—Unverified
End-to-end contextual speech recognition using class language models and a token passing decoder	Dec 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Auto-tuning TensorFlow Threading Model for CPU Backend	Dec 4, 2018	BenchmarkingCPU	—Unverified
Fully Neural Network Based Speech Recognition on Mobile and Embedded Devices	Dec 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Connectionist Temporal Classification with Maximum Entropy Regularization	Dec 1, 2018	ClassificationGeneral Classification	CodeCode Available
使用長短期記憶類神經網路建構中文語音辨識器之研究 (A Study on Mandarin Speech Recognition using Long Short- Term Memory Neural Network)	Dec 1, 2018	speech-recognitionSpeech Recognition	—Unverified
Development of Natural Language Processing Tools for Cook Islands M\=aori	Dec 1, 2018	Machine TranslationPart-Of-Speech Tagging	—Unverified
結合鑑別式訓練與模型合併於半監督式語音辨識之研究 (Leveraging Discriminative Training and Model Combination for Semi-supervised Speech Recognition)	Dec 1, 2018	speech-recognitionSpeech Recognition	—Unverified
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Context-Aware Dialog Re-Ranking for Task-Oriented Dialog Systems	Nov 28, 2018	Re-Rankingspeech-recognition	CodeCode Available
Acoustics-guided evaluation (AGE): a new measure for estimating performance of speech enhancement algorithms for robust ASR	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning to detect dysarthria from raw speech	Nov 27, 2018	General ClassificationSentence	CodeCode Available
Efficient non-uniform quantizer for quantized neural network targeting reconfigurable hardware	Nov 27, 2018	image-classificationImage Classification	—Unverified
Improved Speech Enhancement with the Wave-U-Net	Nov 27, 2018	Audio Source SeparationSpeech Enhancement	CodeCode Available
Interpretable Convolutional Filters with SincNet	Nov 23, 2018	Distant Speech RecognitionInductive Bias	—Unverified
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes	Nov 22, 2018	Allspeech-recognition	—Unverified
Speech recognition with quaternion neural networks	Nov 21, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions	Nov 21, 2018	DiagnosticSpecificity	—Unverified
WEST: Word Encoded Sequence Transducers	Nov 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Voice Controlled E-Commerce Web Application	Nov 16, 2018	Medical Diagnosisspeech-recognition	—Unverified
Investigating the Effects of Word Substitution Errors on Sentence Embeddings	Nov 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Streaming End-to-end Speech Recognition For Mobile Devices	Nov 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Corpus Phonetics Tutorial	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 192 of 258Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified