Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4751–4800 of 6433 papers

Title	Date	Tasks	Status
Bonseyes AI Pipeline -- bringing AI to you. End-to-end integration of data, algorithms and deployment tools	Jan 15, 2019	Automatic Speech Recognition (ASR)image-classification	—Unverified
FastGRNN: A Fast, Accurate, Stable and Tiny Kilobyte Sized Gated Recurrent Neural Network	Jan 8, 2019	Action ClassificationLanguage Modelling	—Unverified
Deep Neural Network Approximation Theory	Jan 8, 2019	Handwritten Digit RecognitionImage Classification	—Unverified
Improving noise robustness of automatic speech recognition via parallel data and teacher-student learning	Jan 5, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Adaptation for End-to-End CTC Models	Jan 4, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Speech Enhancement for Reverberated and Noisy Signals using Wide Residual Networks	Jan 3, 2019	Speech Enhancementspeech-recognition	—Unverified
A Deep Learning Approach for Similar Languages, Varieties and Dialects	Jan 2, 2019	Deep LearningDialect Identification	—Unverified
Exploring spectro-temporal features in end-to-end convolutional neural networks	Jan 1, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Improving the Interpretability of Deep Neural Networks with Knowledge Distillation	Dec 28, 2018	EthicsKnowledge Distillation	—Unverified
Advancing the State of the Art in Open Domain Dialog Systems through the Alexa Prize	Dec 27, 2018	Knowledge GraphsManagement	—Unverified
Privacy-Preserving Collaborative Deep Learning with Unreliable Participants	Dec 25, 2018	Deep Learningimage-classification	—Unverified
Noise Flooding for Detecting Audio Adversarial Examples Against Automatic Speech Recognition	Dec 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pansori: ASR Corpus Generation from Open Online Video Contents	Dec 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Unsupervised Speech Recognition via Segmental Empirical Output Distribution Matching	Dec 23, 2018	Language ModelingLanguage Modelling	—Unverified
An Empirical Analysis of Deep Audio-Visual Models for Speech Recognition	Dec 21, 2018	Lip ReadingSensitivity	—Unverified
SQuantizer: Simultaneous Learning for Both Sparse and Low-precision Neural Networks	Dec 20, 2018	Machine TranslationNeural Architecture Search	—Unverified
A Review of Meta-Reinforcement Learning for Deep Neural Networks Architecture Search	Dec 20, 2018	Meta Reinforcement LearningNatural Language Understanding	—Unverified
Streaming Voice Query Recognition using Causal Convolutional Recurrent Neural Networks	Dec 19, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adam Induces Implicit Weight Sparsity in Rectifier Neural Networks	Dec 19, 2018	Machine Translationspeech-recognition	—Unverified
Multiple topic identification in human/human conversations	Dec 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fully Convolutional Speech Recognition	Dec 17, 2018	Language ModelingLanguage Modelling	—Unverified
The Recognition Of Persian Phonemes Using PPNet	Dec 17, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Review of Meta-Reinforcement Learning for Deep Neural Networks Architecture Search	Dec 17, 2018	General ClassificationMeta Reinforcement Learning	—Unverified
Impact of Data Normalization on Deep Neural Network for Time Series Forecasting	Dec 13, 2018	image-classificationImage Classification	—Unverified
E-RNN: Design Optimization for Efficient Recurrent Neural Networks in FPGAs	Dec 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Scalable language model adaptation for spoken dialogue systems	Dec 11, 2018	Language ModelingLanguage Modelling	—Unverified
To Reverse the Gradient or Not: An Empirical Comparison of Adversarial and Multi-task Learning in Speech Recognition	Dec 9, 2018	Multi-Task LearningSpeaker Recognition	—Unverified
The USTC-NEL Speech Translation system at IWSLT 2018	Dec 6, 2018	Machine Translationspeech-recognition	—Unverified
End-to-end contextual speech recognition using class language models and a token passing decoder	Dec 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Auto-tuning TensorFlow Threading Model for CPU Backend	Dec 4, 2018	BenchmarkingCPU	—Unverified
Fully Neural Network Based Speech Recognition on Mobile and Embedded Devices	Dec 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Connectionist Temporal Classification with Maximum Entropy Regularization	Dec 1, 2018	ClassificationGeneral Classification	CodeCode Available
使用長短期記憶類神經網路建構中文語音辨識器之研究 (A Study on Mandarin Speech Recognition using Long Short- Term Memory Neural Network)	Dec 1, 2018	speech-recognitionSpeech Recognition	—Unverified
Development of Natural Language Processing Tools for Cook Islands M\=aori	Dec 1, 2018	Machine TranslationPart-Of-Speech Tagging	—Unverified
結合鑑別式訓練與模型合併於半監督式語音辨識之研究 (Leveraging Discriminative Training and Model Combination for Semi-supervised Speech Recognition)	Dec 1, 2018	speech-recognitionSpeech Recognition	—Unverified
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Context-Aware Dialog Re-Ranking for Task-Oriented Dialog Systems	Nov 28, 2018	Re-Rankingspeech-recognition	CodeCode Available
Acoustics-guided evaluation (AGE): a new measure for estimating performance of speech enhancement algorithms for robust ASR	Nov 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning to detect dysarthria from raw speech	Nov 27, 2018	General ClassificationSentence	CodeCode Available
Efficient non-uniform quantizer for quantized neural network targeting reconfigurable hardware	Nov 27, 2018	image-classificationImage Classification	—Unverified
Improved Speech Enhancement with the Wave-U-Net	Nov 27, 2018	Audio Source SeparationSpeech Enhancement	CodeCode Available
Interpretable Convolutional Filters with SincNet	Nov 23, 2018	Distant Speech RecognitionInductive Bias	—Unverified
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes	Nov 22, 2018	Allspeech-recognition	—Unverified
Speech recognition with quaternion neural networks	Nov 21, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Measuring Depression Symptom Severity from Spoken Language and 3D Facial Expressions	Nov 21, 2018	DiagnosticSpecificity	—Unverified
WEST: Word Encoded Sequence Transducers	Nov 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Voice Controlled E-Commerce Web Application	Nov 16, 2018	Medical Diagnosisspeech-recognition	—Unverified
Investigating the Effects of Word Substitution Errors on Sentence Embeddings	Nov 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Streaming End-to-end Speech Recognition For Mobile Devices	Nov 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Corpus Phonetics Tutorial	Nov 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 96 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified