Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5551–5600 of 6433 papers

Title	Date	Tasks	Status
The IWSLT 2016 Evaluation Campaign	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Efficient and Effective Online Sentence Segmenter for Simultaneous Interpretation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
Combination of Convolutional and Recurrent Neural Network for Sentiment Analysis of Short Texts	Dec 1, 2016	Information RetrievalSentiment Analysis	CodeCode Available
A Dataset for Multimodal Question Answering in the Cultural Heritage Domain	Dec 1, 2016	Question AnsweringSpeech Recognition	—Unverified
Bayesian Language Model based on Mixture of Segmental Contexts for Spontaneous Utterances with Unexpected Words	Dec 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Recurrent Neural Network with Word Embedding for Complaint Classification	Dec 1, 2016	ClassificationGeneral Classification	—Unverified
Automatic Speech Recognition Errors as a Predictor of L2 Listening Difficulties	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Demonstrating Ambient Search: Implicit Document Retrieval for Speech Streams	Dec 1, 2016	Information RetrievalKeyword Extraction	—Unverified
The RWTH Aachen LVCSR system for IWSLT-2016 German Skype conversation recognition task	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified
papago: A Machine Translation Service with Word Sense Disambiguation and Currency Conversion	Dec 1, 2016	Machine TranslationOptical Character Recognition (OCR)	—Unverified
Reddit Temporal N-gram Corpus and its Applications on Paraphrase and Semantic Similarity in Social Media using a Topic-based Latent Semantic Analysis	Dec 1, 2016	AttributeInformation Retrieval	—Unverified
Lightly Supervised Quality Estimation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
融合多任務學習類神經網路聲學模型訓練於會議語音辨識之研究 (Leveraging Multi-Task Learning with Neural Network Based Acoustic Modeling for Improved Meeting Speech Recognition) [In Chinese]	Dec 1, 2016	Multi-Task Learningspeech-recognition	—Unverified
使用字典學習法於強健性語音辨識 (The Use of Dictionary Learning Approach for Robustness Speech Recognition) [In Chinese]	Dec 1, 2016	Automatic Speech Recognition (ASR)Dictionary Learning	—Unverified
Vaidya: A Spoken Dialog System for Health Domain	Dec 1, 2016	Medical DiagnosisSpeech Recognition	—Unverified
Arabic Language WEKA-Based Dialect Classifier for Arabic Automatic Speech Recognition Transcripts	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dense Prediction on Sequences with Time-Dilated Convolutions for Speech Recognition	Nov 28, 2016	Computational EfficiencyGeneral Classification	—Unverified
Invariant Representations for Noisy Speech Recognition	Nov 27, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Overview on Data Representation Learning: From Traditional Feature Learning to Recent Deep Learning	Nov 25, 2016	General Classificationimage-classification	—Unverified
Geometric deep learning on graphs and manifolds using mixture model CNNs	Nov 25, 2016	Deep LearningDocument Classification	CodeCode Available
Interpreting the Predictions of Complex ML Models by Layer-wise Relevance Propagation	Nov 24, 2016	General Classificationimage-classification	—Unverified
Deep Recurrent Convolutional Neural Network: Improving Performance For Speech Recognition	Nov 22, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning to Distill: The Essence Vector Modeling Framework	Nov 22, 2016	DenoisingDocument Embedding	—Unverified
Robust end-to-end deep audiovisual speech recognition	Nov 21, 2016	speech-recognitionSpeech Recognition	—Unverified
Neural Information Retrieval: A Literature Review	Nov 18, 2016	Information RetrievalRetrieval	—Unverified
Compacting Neural Network Classifiers via Dropout Training	Nov 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Increasing the Interpretability of Recurrent Neural Networks Using Hidden Markov Models	Nov 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Lip Reading Sentences in the Wild	Nov 16, 2016	LipreadingLip Reading	—Unverified
Tricks from Deep Learning	Nov 10, 2016	Deep LearningMachine Translation	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Automatic recognition of child speech for robotic applications in noisy environments	Nov 8, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Discriminative Acoustic Word Embeddings: Recurrent Neural Network-Based Approaches	Nov 8, 2016	Dynamic Time WarpingGeneral Classification	—Unverified
Neural Networks Designing Neural Networks: Multi-Objective Hyper-Parameter Optimization	Nov 7, 2016	BIG-bench Machine Learningimage-classification	—Unverified
Word-Level Language Identification and Predicting Codeswitching Points in Swahili-English Language Data	Nov 1, 2016	Language IdentificationSentiment Analysis	—Unverified
Codeswitching Detection via Lexical Features in Conditional Random Fields	Nov 1, 2016	Automatic Speech Recognition (ASR)Sentiment Analysis	—Unverified
Convolutional Neural Network Language Models	Nov 1, 2016	Document ClassificationGeneral Classification	CodeCode Available
Neural Sentiment Classification with User and Product Attention	Nov 1, 2016	ClassificationFeature Engineering	CodeCode Available
Latent Tree Language Model	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
Neural Morphological Analysis: Encoding-Decoding Canonical Segments	Nov 1, 2016	Automatic Speech Recognition (ASR)Keyword Spotting	—Unverified
Richer Interpolative Smoothing Based on Modified Kneser-Ney Language Modeling	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Joint Transition-based Dependency Parsing and Disfluency Detection for Automatic Speech Recognition Texts	Nov 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Real-Time Speech Emotion and Sentiment Recognition for Interactive Dialogue Systems	Nov 1, 2016	Dialogue ManagementEmotion Recognition	—Unverified
Solving Verbal Questions in IQ Test by Knowledge-Powered Word Embedding	Nov 1, 2016	Face RecognitionQuestion Answering	—Unverified
Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition	Oct 31, 2016	Language ModelingLanguage Modelling	—Unverified
Still not there? Comparing Traditional Sequence-to-Sequence Models to Encoder-Decoder Neural Networks on Monotone String Translation Tasks	Oct 25, 2016	DecoderGrapheme-to-Phoneme Conversion	—Unverified
End-to-End Training Approaches for Discriminative Segmental Models	Oct 21, 2016	speech-recognitionSpeech Recognition	—Unverified
Online Training of an Opto-Electronic Reservoir Computer Applied to Real-Time Channel Equalisation	Oct 20, 2016	speech-recognitionSpeech Recognition	—Unverified
Embodiment of Learning in Electro-Optical Signal Processors	Oct 20, 2016	speech-recognitionSpeech Recognition	—Unverified
A Bayesian Approach to Estimation of Speaker Normalization Parameters	Oct 19, 2016	speech-recognitionSpeech Recognition	—Unverified
Small-footprint Highway Deep Neural Networks for Speech Recognition	Oct 18, 2016	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 112 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified