Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4851–4900 of 6433 papers

Title	Date	Tasks	Status
Contextual Speech Recognition with Difficult Negative Training Examples	Oct 29, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Audio Adversarial Example for a Physical Attack	Oct 28, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Hypergraph based semi-supervised learning algorithms applied to speech recognition problem: a novel approach	Oct 28, 2018	Sensitivityspeech-recognition	—Unverified
Language Modeling for Code-Switching: Evaluation, Integration of Monolingual Data, and Discriminative Training	Oct 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Neuron Activation Profiles for Interpreting Convolutional Speech Recognition Models	Oct 26, 2018	Clusteringspeech-recognition	—Unverified
Scaling Speech Enhancement in Unseen Environments with Noise Embeddings	Oct 26, 2018	Speech Enhancementspeech-recognition	—Unverified
Speaker Selective Beamformer with Keyword Mask Estimation	Oct 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tackling Sequence to Sequence Mapping Problems with Neural Networks	Oct 25, 2018	Domain AdaptationFeature Engineering	—Unverified
The MeMAD Submission to the IWSLT 2018 Speech Translation Task	Oct 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language Modeling at Scale	Oct 23, 2018	GPULanguage Modeling	—Unverified
A Deep Generative Acoustic Model for Compositional Automatic Speech Recognition	Oct 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semi-supervised acoustic model training for speech with code-switching	Oct 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Speech Enhancement with the Wave-U-Net	Oct 22, 2018	Audio Source SeparationSpeech Enhancement	—Unverified
How transferable are features in convolutional neural network acoustic models across languages?	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Domain Adaptation By Augmented Cyclic Adversarial Learning	Oct 22, 2018	Domain Adaptationspeech-recognition	—Unverified
ROBUST SPEECH COMMAND RECOGNITION USING LABEL-DRIVEN TIME-FREQUENCY MASKING	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Training Neural Speech Recognition Systems with Synthetic Speech Augmentation	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Targeted Adversarial Examples for Black Box Audio Systems	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transferable and Configurable Audio Adversarial Attack from Low-Level Features	Oct 22, 2018	Adversarial AttackAutomatic Speech Recognition	—Unverified
Cycle-Consistent GAN Front-End to Improve ASR Robustness to Perturbed Speech	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learned in Speech Recognition: Contextual Acoustic Word Embeddings	Oct 22, 2018	Sentencespeech-recognition	—Unverified
Proactive Security: Embedded AI Solution for Violent and Abusive Speech Recognition	Oct 22, 2018	Data Augmentationspeech-recognition	—Unverified
A comprehensive analysis on attention models	Oct 22, 2018	speech-recognitionSpeech Recognition	—Unverified
Interpretable Convolutional Filters with SincNet	Oct 21, 2018	Inductive Biasspeech-recognition	—Unverified
Hierarchical Text Generation using an Outline	Oct 20, 2018	Dialogue Generationspeech-recognition	CodeCode Available
EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge	Oct 18, 2018	speech-recognitionSpeech Recognition	—Unverified
Exploring Textual and Speech information in Dialogue Act Classification with Speaker Domain Adaptation	Oct 17, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evolutionary Stochastic Gradient Descent for Optimization of Deep Neural Networks	Oct 16, 2018	Evolutionary AlgorithmsLanguage Modeling	CodeCode Available
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available
Robust Neural Machine Translation with Joint Textual and Phonetic Embedding	Oct 15, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Speech Recognition with Quaternion Neural Networks	Oct 15, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dense Multimodal Fusion for Hierarchically Joint Representation	Oct 8, 2018	Cross-Modal RetrievalRetrieval	—Unverified
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks	Oct 8, 2018	speech-recognitionSpeech Recognition	—Unverified
Multilingual sequence-to-sequence speech recognition: architecture, transfer learning, and language modeling	Oct 4, 2018	Language ModelingLanguage Modelling	—Unverified
Combining Natural Gradient with Hessian Free Methods for Sequence Training	Oct 3, 2018	speech-recognitionSpeech Recognition	—Unverified
Optimal Completion Distillation for Sequence Learning	Oct 2, 2018	Positionspeech-recognition	CodeCode Available
Learning Noise-Invariant Representations for Robust Speech Recognition	Oct 2, 2018	Data AugmentationRepresentation Learning	—Unverified
Listening Comprehension over Argumentative Content	Oct 1, 2018	Automatic Speech Recognition (ASR)Machine Reading Comprehension	—Unverified
Acoustic Word Disambiguation with Phonogical Features in Danish ASR	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatically Tailoring Unsupervised Morphological Segmentation to the Language	Oct 1, 2018	Machine TranslationSegmentation	—Unverified
The AFRL IWSLT 2018 Systems: What Worked, What Didn’t	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Extended Bit-Plane Compression for Convolutional Neural Network Accelerators	Oct 1, 2018	image-classificationImage Classification	CodeCode Available
MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling	Oct 1, 2018	Decision MakingDialogue Management	—Unverified
使用長短期記憶類神經網路建構中文語音辨識器之研究 (A study on Mandarin speech recognition using Long Short-Term Memory neural network) [In Chinese]	Oct 1, 2018	speech-recognitionSpeech Recognition	—Unverified
Deep Learning for Social Media Health Text Classification	Oct 1, 2018	Binary ClassificationClassification	—Unverified
The Sogou-TIIC Speech Translation System for IWSLT 2018	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Words Worth: Verbal Content and Hirability Impressions in YouTube Video Resumes	Oct 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Session-level Language Modeling for Conversational Speech	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 98 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified