Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5101–5150 of 6433 papers

Title	Date	Tasks	Status	Hype
The WAW Corpus: The First Corpus of Interpreted Speeches and their Translations for English and Arabic	May 1, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified	0
Contextual Dependencies in Time-Continuous Multidimensional Affect Recognition	May 1, 2018	Emotion RecognitionMultimodal Emotion Recognition	—Unverified	0
Towards an Automatic Assessment of Crowdsourced Data for NLU	May 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Neural Caption Generation for News Images	May 1, 2018	Caption GenerationImage Captioning	—Unverified	0
An Application for Building a Polish Telephone Speech Corpus	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
Matics Software Suite: New Tools for Evaluation and Data Exploration	May 1, 2018	Optical Character Recognition (OCR)Speaker Diarization	—Unverified	0
A Comparative Study of Extremely Low-Resource Transliteration of the World's Languages	May 1, 2018	Machine TranslationSpeech Recognition	—Unverified	0
Building Open Javanese and Sundanese Corpora for Multilingual Text-to-Speech	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
CPJD Corpus: Crowdsourced Parallel Speech Corpus of Japanese Dialects	May 1, 2018	Machine TranslationSpeech Recognition	—Unverified	0
Towards Processing of the Oral History Interviews and Related Printed Documents	May 1, 2018	Automatic Speech Recognition (ASR)Optical Character Recognition (OCR)	—Unverified	0
Collecting Code-Switched Data from Social Media	May 1, 2018	Language IdentificationLanguage Modeling	—Unverified	0
MOCCA: Measure of Confidence for Corpus Analysis - Automatic Reliability Check of Transcript and Automatic Segmentation	May 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
Automatic Documentation of ICD Codes with Far-Field Speech Recognition	Apr 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Investigations on End-to-End Audiovisual Fusion	Apr 30, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese	Apr 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Optimus: An Efficient Dynamic Resource Scheduler for Deep Learning Clusters	Apr 26, 2018	CPUDeep Learning	CodeCode Available	0
Sparse Persistent RNNs: Squeezing Large Recurrent Networks On-Chip	Apr 26, 2018	GPUNMT	—Unverified	0
End-to-End Multimodal Speech Recognition	Apr 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Recent Progresses in Deep Learning based Acoustic Models (Updated)	Apr 25, 2018	Deep LearningGeneral Classification	—Unverified	0
Automatic speech recognition for launch control center communication using recurrent neural networks with data augmentation and custom language model	Apr 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Information-Theoretic View for Deep Learning	Apr 24, 2018	Deep Learningspeech-recognition	—Unverified	0
Multi-Head Decoder for End-to-End Speech Recognition	Apr 22, 2018	Decoderspeech-recognition	—Unverified	0
Precise Detection of Speech Endpoints Dynamically: A Wavelet Convolution based approach	Apr 17, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Neural Compatibility Modeling with Attentive Knowledge Distillation	Apr 17, 2018	image-classificationImage Classification	—Unverified	0
Neural Network Language Modeling with Letter-based Features and Importance Sampling	Apr 15, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Twin Regularization for online speech recognition	Apr 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available	0
Language Recognition using Time Delay Deep Neural Network	Apr 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Global SNR Estimation of Speech Signals using Entropy and Uncertainty Estimates from Dropout Networks	Apr 12, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Vision as an Interlingua: Learning Multilingual Semantic Embeddings of Untranscribed Speech	Apr 9, 2018	Retrievalspeech-recognition	—Unverified	0
Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition	Apr 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Scalable Factorized Hierarchical Variational Autoencoder Training	Apr 9, 2018	DisentanglementHyperparameter Optimization	CodeCode Available	0
Attentive Sequence-to-Sequence Learning for Diacritic Restoration of Yorùbá Language Text	Apr 3, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension	Apr 1, 2018	Question AnsweringReading Comprehension	CodeCode Available	1
Joint Learning of Interactive Spoken Content Retrieval and Trainable User Simulator	Apr 1, 2018	Information RetrievalQ-Learning	—Unverified	0
ESPnet: End-to-End Speech Processing Toolkit	Mar 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Unsupervised Automatic Speech Recognition Trained by Unaligned Speech and Text only	Mar 29, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Machine Speech Chain with One-shot Speaker Adaptation	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Student-Teacher Learning for BLSTM Mask-based Speech Enhancement	Mar 27, 2018	Speech Enhancementspeech-recognition	—Unverified	0
Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Comprehending Real Numbers: Development of Bengali Real Number Speech Corpus	Mar 27, 2018	speech-recognitionSpeech Recognition	—Unverified	0
A Multi-Discriminator CycleGAN for Unsupervised Non-Parallel Speech Domain Adaptation	Mar 27, 2018	Domain AdaptationGenerative Adversarial Network	—Unverified	0
Investigating Generative Adversarial Networks based Speech Dereverberation for Robust Speech Recognition	Mar 27, 2018	Robust Speech RecognitionSpeech Dereverberation	CodeCode Available	0
Multi-Modal Data Augmentation for End-to-End ASR	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Light Gated Recurrent Units for Speech Recognition	Mar 26, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Spectral feature mapping with mimic loss for robust speech recognition	Mar 26, 2018	Robust Speech RecognitionSpeech Enhancement	—Unverified	0
Clipping free attacks against artificial neural networks	Mar 26, 2018	Malware Detectionspeech-recognition	—Unverified	0
Long short-term memory and learning-to-learn in networks of spiking neurons	Mar 26, 2018	Reinforcement LearningSequential Image Classification	CodeCode Available	0
Low-Resource Speech-to-Text Translation	Mar 24, 2018	DecoderMachine Translation	—Unverified	0
Exploring the robustness of features and enhancement on speech recognition systems in highly-reverberant real environments	Mar 23, 2018	speech-recognitionSpeech Recognition	—Unverified	0

Show:10 25 50

← PrevPage 103 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified