Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4851–4900 of 6433 papers

Title	Date	Tasks	Status	Hype
Robust Neural Machine Translation with Joint Textual and Phonetic Embedding	Oct 15, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified	0
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking	Oct 11, 2018	Speaker RecognitionSpeaker Separation	CodeCode Available	2
Dense Multimodal Fusion for Hierarchically Joint Representation	Oct 8, 2018	Cross-Modal RetrievalRetrieval	—Unverified	0
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks	Oct 8, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Multilingual sequence-to-sequence speech recognition: architecture, transfer learning, and language modeling	Oct 4, 2018	Language ModelingLanguage Modelling	—Unverified	0
Combining Natural Gradient with Hessian Free Methods for Sequence Training	Oct 3, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Learning Noise-Invariant Representations for Robust Speech Recognition	Oct 2, 2018	Data AugmentationRepresentation Learning	—Unverified	0
Optimal Completion Distillation for Sequence Learning	Oct 2, 2018	Positionspeech-recognition	CodeCode Available	0
Neural Speech Translation at AppTek	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The Sogou-TIIC Speech Translation System for IWSLT 2018	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The AFRL IWSLT 2018 Systems: What Worked, What Didn’t	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Using Spoken Word Posterior Features in Neural Machine Translation	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Extended Bit-Plane Compression for Convolutional Neural Network Accelerators	Oct 1, 2018	image-classificationImage Classification	CodeCode Available	0
探討聲學模型的合併技術與半監督鑑別式訓練於會議語音辨識之研究 (Investigating acoustic model combination and semi-supervised discriminative training for meeting speech recognition) [In Chinese]	Oct 1, 2018	Automatic Speech Recognition (ASR)speech-recognition	—Unverified	0
使用長短期記憶類神經網路建構中文語音辨識器之研究 (A study on Mandarin speech recognition using Long Short-Term Memory neural network) [In Chinese]	Oct 1, 2018	speech-recognitionSpeech Recognition	—Unverified	0
會議語音辨識使用語者資訊之語言模型調適技術 (On the Use of Speaker-Aware Language Model Adaptation Techniques for Meeting Speech Recognition ) [In Chinese]	Oct 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Improving Neural Language Models with Weight Norm Initialization and Regularization	Oct 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Automatically Tailoring Unsupervised Morphological Segmentation to the Language	Oct 1, 2018	Machine TranslationSegmentation	—Unverified	0
Self-training improves Recurrent Neural Networks performance for Temporal Relation Extraction	Oct 1, 2018	Feature EngineeringMachine Translation	—Unverified	0
Words Worth: Verbal Content and Hirability Impressions in YouTube Video Resumes	Oct 1, 2018	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified	0
A Morphological Analyzer for Shipibo-Konibo	Oct 1, 2018	LemmatizationMachine Translation	—Unverified	0
Neural Machine Translation with the Transformer and Multi-Source Romance Languages for the Biomedical WMT 2018 task	Oct 1, 2018	Machine TranslationSpeech Recognition	—Unverified	0
Acoustic Word Disambiguation with Phonogical Features in Danish ASR	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Learning for Social Media Health Text Classification	Oct 1, 2018	Binary ClassificationClassification	—Unverified	0
Research Challenges in Building a Voice-based Artificial Personal Shopper - Position Paper	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Estimating Marginal Probabilities of n-grams for Recurrent Neural Language Models	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Listening Comprehension over Argumentative Content	Oct 1, 2018	Automatic Speech Recognition (ASR)Machine Reading Comprehension	—Unverified	0
MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling	Oct 1, 2018	Decision MakingDialogue Management	—Unverified	0
Session-level Language Modeling for Conversational Speech	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Dual Fixed-Size Ordinally Forgetting Encoding (FOFE) for Competitive Neural Language Models	Oct 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding	Oct 1, 2018	Automatic Speech Recognition (ASR)Intent Detection	—Unverified	0
Joint On-line Learning of a Zero-shot Spoken Semantic Parser and a Reinforcement Learning Dialogue Manager	Oct 1, 2018	Dialogue ManagementManagement	—Unverified	0
NICE: Noise Injection and Clamping Estimation for Neural Network Quantization	Sep 29, 2018	General ClassificationGPU	CodeCode Available	1
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Characterizing Audio Adversarial Examples Using Temporal Dependency	Sep 28, 2018	Adversarial DefenseAutomatic Speech Recognition	—Unverified	0
Zero-shot Learning for Speech Recognition with Universal Phonetic Model	Sep 27, 2018	speech-recognitionSpeech Recognition	—Unverified	0
End-to-End Multi-Lingual Multi-Speaker Speech Recognition	Sep 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
EXPLORATION OF EFFICIENT ON-DEVICE ACOUSTIC MODELING WITH NEURAL NETWORKS	Sep 27, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Non-native children speech recognition through transfer learning	Sep 25, 2018	speech-recognitionSpeech Recognition	—Unverified	0
Hindi-English Code-Switching Speech Corpus	Sep 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
From Audio to Semantics: Approaches to end-to-end spoken language understanding	Sep 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Low Frequency Adversarial Perturbation	Sep 24, 2018	DenoisingSpeech Recognition	CodeCode Available	0
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified	0
Scene Text Recognition from Two-Dimensional Perspective	Sep 18, 2018	Scene Text RecognitionSemantic Segmentation	—Unverified	0
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Neural Network Algorithm	Sep 17, 2018	Image CompressionNovelty Detection	—Unverified	0
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Convolutional Neural Network	Sep 17, 2018	Face Recognitionimage-classification	—Unverified	0
End-to-end Audiovisual Speech Activity Detection with Bimodal Recurrent Neural Models	Sep 12, 2018	Action DetectionActivity Detection	—Unverified	0
Isolated and Ensemble Audio Preprocessing Methods for Detecting Adversarial Examples against Automatic Speech Recognition	Sep 11, 2018	Adversarial AttackAutomatic Speech Recognition	—Unverified	0
A proof that artificial neural networks overcome the curse of dimensionality in the numerical approximation of Black-Scholes partial differential equations	Sep 7, 2018	image-classificationImage Classification	—Unverified	0
End-to-end speech recognition using lattice-free MMI	Sep 6, 2018	speech-recognitionSpeech Recognition	—Unverified	0

Show:10 25 50

← PrevPage 98 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified