Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5651–5700 of 6433 papers

Title	Date	Tasks	Status	Hype
Off-topic Response Detection for Spontaneous Spoken English Assessment	Aug 1, 2016	Automatic Speech Recognition (ASR)Semantic Textual Similarity	—Unverified	0
My Science Tutor---Learning Science with a Conversational Virtual Tutor	Aug 1, 2016	Speech RecognitionSpoken Language Understanding	—Unverified	0
Joint Word Segmentation and Phonetic Category Induction	Aug 1, 2016	Language AcquisitionSpeech Recognition	—Unverified	0
TranscRater: a Tool for Automatic Speech Recognition Quality Estimation	Aug 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
How to Train Dependency Parsers with Inexact Search for Joint Sentence Boundary Detection and Parsing of Entire Documents	Aug 1, 2016	Automatic Speech Recognition (ASR)Boundary Detection	—Unverified	0
OpenDial: A Toolkit for Developing Spoken Dialogue Systems with Probabilistic Rules	Aug 1, 2016	Dialogue ManagementSpeech Recognition	—Unverified	0
Unsupervised morph segmentation and statistical language models for vocabulary expansion	Aug 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Modeling Concept Dependencies in a Scientific Corpus	Aug 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
An Open Web Platform for Rule-Based Speech-to-Sign Translation	Aug 1, 2016	Machine TranslationSign Language Recognition	—Unverified	0
Cross-lingual projection for class-based language models	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Detecting Mild Cognitive Impairment by Exploiting Linguistic Information from Transcripts	Aug 1, 2016	Automatic Speech Recognition (ASR)Lexical Analysis	—Unverified	0
N-gram language models for massively parallel devices	Aug 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Exponentially Decaying Bag-of-Words Input Features for Feed-Forward Neural Network in Statistical Machine Translation	Aug 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Blind phoneme segmentation with temporal prediction errors	Aug 1, 2016	Predictionspeech-recognition	—Unverified	0
Trainable Frontend For Robust and Far-Field Keyword Spotting	Jul 19, 2016	Keyword Spottingspeech-recognition	CodeCode Available	0
Piecewise convexity of artificial neural networks	Jul 17, 2016	global-optimizationspeech-recognition	—Unverified	0
On the efficient representation and execution of deep acoustic models	Jul 15, 2016	Quantizationspeech-recognition	—Unverified	0
DSD: Dense-Sparse-Dense Training for Deep Neural Networks	Jul 15, 2016	8kCaption Generation	CodeCode Available	0
Intra-layer Nonuniform Quantization for Deep Convolutional Neural Network	Jul 10, 2016	ClusteringGeneral Classification	—Unverified	0
Single-Channel Multi-Speaker Separation using Deep Clustering	Jul 7, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Sequence Training and Adaptation of Highway Deep Neural Networks	Jul 7, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Estimation de la qualit\'e d'un syst\`eme de reconnaissance de la parole pour une t\^ache de compr\'ehension (Quality estimation of a Speech Recognition System for a Spoken Language Understanding task)	Jul 1, 2016	speech-recognitionSpeech Recognition	—Unverified	0
From Human Language Technology to Human Language Science	Jul 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Moving Toward High Precision Dynamical Modelling in Hidden Markov Models	Jul 1, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Generation and Pruning of Pronunciation Variants to Improve ASR Accuracy	Jun 28, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Training LDCRF model on unsegmented sequences using Connectionist Temporal Classification	Jun 26, 2016	ClassificationGeneral Classification	—Unverified	0
NN-grams: Unifying neural network and n-gram language models for Speech Recognition	Jun 23, 2016	Binary ClassificationLanguage Modeling	—Unverified	0
A Curriculum Learning Method for Improved Noise Robustness in Automatic Speech Recognition	Jun 22, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Comprehensive Study of Deep Bidirectional LSTM RNNs for Acoustic Modeling in Speech Recognition	Jun 22, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A segmental framework for fully-unsupervised large-vocabulary speech recognition	Jun 22, 2016	Language ModellingSpeech Recognition	CodeCode Available	0
A Nonparametric Bayesian Approach for Spoken Term detection by Example Query	Jun 20, 2016	Acoustic Unit Discoveryspeech-recognition	—Unverified	0
Graph based manifold regularized deep neural networks for automatic speech recognition	Jun 19, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Spectral decomposition method of dialog state tracking via collective matrix factorization	Jun 16, 2016	dialog state trackingManagement	—Unverified	0
Increasing the Interpretability of Recurrent Neural Networks Using Hidden Markov Models	Jun 16, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Automatic Pronunciation Generation by Utilizing a Semi-supervised Deep Neural Networks	Jun 15, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Calibration of Phone Likelihoods in Automatic Speech Recognition	Jun 14, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Training variance and performance evaluation of neural networks in speech	Jun 14, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Dialog state tracking, a machine reading approach using Memory Network	Jun 13, 2016	dialog state trackingManagement	—Unverified	0
Distributed Hessian-Free Optimization for Deep Neural Network	Jun 2, 2016	CPUspeech-recognition	—Unverified	0
A Spiking Network that Learns to Extract Spike Signatures from Speech Signals	Jun 2, 2016	speech-recognitionSpeech Recognition	—Unverified	0
Temporal Multimodal Learning in Audiovisual Speech Recognition	Jun 1, 2016	Multimodal Deep Learningspeech-recognition	—Unverified	0
Automated scoring across different modalities	Jun 1, 2016	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
Simple, Fast Noise-Contrastive Estimation for Large RNN Vocabularies	Jun 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Phonological Pun-derstanding	Jun 1, 2016	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
Using Related Languages to Enhance Statistical Language Models	Jun 1, 2016	Automatic Speech Recognition (ASR)Domain Adaptation	—Unverified	0
Bidirectional RNN for Medical Event Detection in Electronic Health Records	Jun 1, 2016	Event DetectionIntrusion Detection	—Unverified	0
An Attentional Model for Speech Translation Without Transcription	Jun 1, 2016	Automatic Speech Recognition (ASR)model	—Unverified	0
DAG-Structured Long Short-Term Memory for Semantic Compositionality	Jun 1, 2016	Machine TranslationSemantic Composition	—Unverified	0
Lecture Translator - Speech translation framework for simultaneous lecture translation	Jun 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified	0
Zara The Supergirl: An Empathetic Personality Recognition System	Jun 1, 2016	Emotion RecognitionSentiment Analysis	—Unverified	0

Show:10 25 50

← PrevPage 114 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified