Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5551–5600 of 6433 papers

Title	Date	Tasks	Status
An Efficient and Effective Online Sentence Segmenter for Simultaneous Interpretation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
Automatic Speech Recognition Errors as a Predictor of L2 Listening Difficulties	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Dataset for Multimodal Question Answering in the Cultural Heritage Domain	Dec 1, 2016	Question AnsweringSpeech Recognition	—Unverified
Comparison of Grapheme-to-Phoneme Conversion Methods on a Myanmar Pronunciation Dictionary	Dec 1, 2016	Active LearningAutomatic Speech Recognition	—Unverified
Using Ambiguity Detection to Streamline Linguistic Annotation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA	Dec 1, 2016	CPUGPU	—Unverified
Dense Prediction on Sequences with Time-Dilated Convolutions for Speech Recognition	Nov 28, 2016	Computational EfficiencyGeneral Classification	—Unverified
Invariant Representations for Noisy Speech Recognition	Nov 27, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Overview on Data Representation Learning: From Traditional Feature Learning to Recent Deep Learning	Nov 25, 2016	General Classificationimage-classification	—Unverified
Geometric deep learning on graphs and manifolds using mixture model CNNs	Nov 25, 2016	Deep LearningDocument Classification	CodeCode Available
Interpreting the Predictions of Complex ML Models by Layer-wise Relevance Propagation	Nov 24, 2016	General Classificationimage-classification	—Unverified
Learning to Distill: The Essence Vector Modeling Framework	Nov 22, 2016	DenoisingDocument Embedding	—Unverified
Deep Recurrent Convolutional Neural Network: Improving Performance For Speech Recognition	Nov 22, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust end-to-end deep audiovisual speech recognition	Nov 21, 2016	speech-recognitionSpeech Recognition	—Unverified
Neural Information Retrieval: A Literature Review	Nov 18, 2016	Information RetrievalRetrieval	—Unverified
Increasing the Interpretability of Recurrent Neural Networks Using Hidden Markov Models	Nov 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Compacting Neural Network Classifiers via Dropout Training	Nov 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Lip Reading Sentences in the Wild	Nov 16, 2016	LipreadingLip Reading	—Unverified
Tricks from Deep Learning	Nov 10, 2016	Deep LearningMachine Translation	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Automatic recognition of child speech for robotic applications in noisy environments	Nov 8, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Discriminative Acoustic Word Embeddings: Recurrent Neural Network-Based Approaches	Nov 8, 2016	Dynamic Time WarpingGeneral Classification	—Unverified
Neural Networks Designing Neural Networks: Multi-Objective Hyper-Parameter Optimization	Nov 7, 2016	BIG-bench Machine Learningimage-classification	—Unverified
Codeswitching Detection via Lexical Features in Conditional Random Fields	Nov 1, 2016	Automatic Speech Recognition (ASR)Sentiment Analysis	—Unverified
Word-Level Language Identification and Predicting Codeswitching Points in Swahili-English Language Data	Nov 1, 2016	Language IdentificationSentiment Analysis	—Unverified
Solving Verbal Questions in IQ Test by Knowledge-Powered Word Embedding	Nov 1, 2016	Face RecognitionQuestion Answering	—Unverified
Joint Transition-based Dependency Parsing and Disfluency Detection for Automatic Speech Recognition Texts	Nov 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural Morphological Analysis: Encoding-Decoding Canonical Segments	Nov 1, 2016	Automatic Speech Recognition (ASR)Keyword Spotting	—Unverified
Neural Sentiment Classification with User and Product Attention	Nov 1, 2016	ClassificationFeature Engineering	CodeCode Available
Richer Interpolative Smoothing Based on Modified Kneser-Ney Language Modeling	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Convolutional Neural Network Language Models	Nov 1, 2016	Document ClassificationGeneral Classification	CodeCode Available
Latent Tree Language Model	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
Real-Time Speech Emotion and Sentiment Recognition for Interactive Dialogue Systems	Nov 1, 2016	Dialogue ManagementEmotion Recognition	—Unverified
Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition	Oct 31, 2016	Language ModelingLanguage Modelling	—Unverified
Still not there? Comparing Traditional Sequence-to-Sequence Models to Encoder-Decoder Neural Networks on Monotone String Translation Tasks	Oct 25, 2016	DecoderGrapheme-to-Phoneme Conversion	—Unverified
End-to-End Training Approaches for Discriminative Segmental Models	Oct 21, 2016	speech-recognitionSpeech Recognition	—Unverified
Online Training of an Opto-Electronic Reservoir Computer Applied to Real-Time Channel Equalisation	Oct 20, 2016	speech-recognitionSpeech Recognition	—Unverified
Embodiment of Learning in Electro-Optical Signal Processors	Oct 20, 2016	speech-recognitionSpeech Recognition	—Unverified
A Bayesian Approach to Estimation of Speaker Normalization Parameters	Oct 19, 2016	speech-recognitionSpeech Recognition	—Unverified
Low-rank and Sparse Soft Targets to Learn Better DNN Acoustic Models	Oct 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Small-footprint Highway Deep Neural Networks for Speech Recognition	Oct 18, 2016	speech-recognitionSpeech Recognition	—Unverified
End-to-end attention-based distant speech recognition with Highway LSTM	Oct 17, 2016	Distant Speech Recognitionspeech-recognition	—Unverified
Achieving Human Parity in Conversational Speech Recognition	Oct 17, 2016	Language ModelingLanguage Modelling	—Unverified
Exploiting Sentence and Context Representations in Deep Neural Models for Spoken Language Understanding	Oct 13, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Long Short-Term Memory based Convolutional Recurrent Neural Networks for Large Vocabulary Speech Recognition	Oct 11, 2016	speech-recognitionSpeech Recognition	—Unverified
Multiple Instance Learning Convolutional Neural Networks for Object Recognition	Oct 11, 2016	Data AugmentationMultiple Instance Learning	—Unverified
Very Deep Convolutional Networks for End-to-End Speech Recognition	Oct 10, 2016	speech-recognitionSpeech Recognition	CodeCode Available
Latent Sequence Decompositions	Oct 10, 2016	speech-recognitionSpeech Recognition	—Unverified
A Semantic Analyzer for the Comprehension of the Spontaneous Arabic Speech	Oct 8, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Gentle Tutorial of Recurrent Neural Network with Error Backpropagation	Oct 8, 2016	Handwriting RecognitionImage to text	CodeCode Available

Show:10 25 50

← PrevPage 112 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified