Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4601–4650 of 6433 papers

Title	Date	Tasks	Status	Hype
Encrypted Speech Recognition using Deep Polynomial Networks	May 11, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Time-Contrastive Learning Based Deep Bottleneck Features for Text-Dependent Speaker Verification	May 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified	0
Language Modeling with Deep Transformers	May 10, 2019	DecoderLanguage Modeling	—Unverified	0
Analysis of Deep Clustering as Preprocessing for Automatic Speech Recognition of Sparsely Overlapping Speech	May 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Universal Adversarial Perturbations for Speech Recognition Systems	May 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Hardware-Oriented and Memory-Efficient Method for CTC Decoding	May 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RWTH ASR Systems for LibriSpeech: Hybrid vs Attention -- w/o Data Augmentation	May 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Optimal Data Augmentation Policies via Bayesian Optimization for Image Classification Tasks	May 6, 2019	Bayesian OptimizationData Augmentation	CodeCode Available	0
Meeting Transcription Using Virtual Microphone Arrays	May 3, 2019	speaker-diarizationSpeaker Diarization	—Unverified	0
Parity Models: A General Framework for Coding-Based Resilience in ML Inference	May 2, 2019	BIG-bench Machine Learningimage-classification	—Unverified	0
Semi-supervised Sequence-to-sequence ASR using Unpaired Speech and Text	Apr 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Learning for Audio Signal Processing	Apr 30, 2019	Audio Signal ProcessingAutomatic Speech Recognition	CodeCode Available	0
Curvature: A signature for Action Recognition in Video Sequences	Apr 30, 2019	Action RecognitionFew-Shot Learning	—Unverified	0
English Broadcast News Speech Recognition by Humans and Machines	Apr 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Very Deep Self-Attention Networks for End-to-End Speech Recognition	Apr 30, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Adversarial Speaker Adaptation	Apr 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-Geometry Spatial Acoustic Modeling for Distant Speech Recognition	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Attentive Adversarial Learning for Domain-Invariant Training	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Transformers with convolutional context for ASR	Apr 26, 2019	Image ClassificationMachine Translation	CodeCode Available	1
Assessing the Tolerance of Neural Machine Translation Systems Against Speech Recognition Errors	Apr 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Phonetically-Oriented Word Error Alignment for Speech Recognition Error Analysis in Speech Translation	Apr 24, 2019	speech-recognitionSpeech Recognition	CodeCode Available	0
Realizing Petabyte Scale Acoustic Modeling	Apr 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Natural Language Interactions in Autonomous Vehicles: Intent Detection and Slot Filling from Passenger Utterances	Apr 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
NLP Driven Ensemble Based Automatic Subtitle Generation and Semantic Video Summarization Technique	Apr 22, 2019	speech-recognitionSpeech Recognition	—Unverified	0
A Novel Task-Oriented Text Corpus in Silent Speech Recognition and its Natural Language Generation Construction Method	Apr 19, 2019	Data-to-Text GenerationDiversity	—Unverified	0
An Investigation of End-to-End Multichannel Speech Recognition for Reverberant and Mismatch Conditions	Apr 19, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TTS Skins: Speaker Conversion via ASR	Apr 18, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition	Apr 18, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition	Apr 17, 2019	Decoderspeech-recognition	—Unverified	0
Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge Distillation	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hard Sample Mining for the Improved Retraining of Automatic Speech Recognition	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Multi-Task Learning Framework for Overcoming the Catastrophic Forgetting in Automatic Speech Recognition	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Speech Translation with Knowledge Distillation	Apr 17, 2019	Knowledge Distillationspeech-recognition	—Unverified	0
CRF-based Single-stage Acoustic Modeling with CTC Topology	Apr 16, 2019	BenchmarkingSpeech Recognition	—Unverified	0
Mitigating the Impact of Speech Recognition Errors on Spoken Question Answering by Adversarial Domain Adaptation	Apr 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
HARK Side of Deep Learning -- From Grad Student Descent to Automated Machine Learning	Apr 16, 2019	BIG-bench Machine LearningDecision Making	—Unverified	0
Attention-Passing Models for Robust and Data-Efficient End-to-End Speech Translation	Apr 15, 2019	Machine Translationspeech-recognition	—Unverified	0
SpeechYOLO: Detection and Localization of Speech Objects	Apr 14, 2019	General ClassificationKeyword Spotting	—Unverified	0
Low-Latency Speaker-Independent Continuous Speech Separation	Apr 13, 2019	speech-recognitionSpeech Recognition	—Unverified	0
STC Speaker Recognition Systems for the VOiCES From a Distance Challenge	Apr 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unsupervised Speech Domain Adaptation Based on Disentangled Representation Learning for Robust Speech Recognition	Apr 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
wav2vec: Unsupervised Pre-training for Speech Recognition	Apr 11, 2019	Binary ClassificationGeneral Classification	CodeCode Available	1
From Semi-supervised to Almost-unsupervised Speech Recognition with Very-low Resource by Jointly Learning Phonetic Structures from Audio and Text Embeddings	Apr 10, 2019	speech-recognitionSpeech Recognition	—Unverified	0
Distributed Deep Learning Strategies For Automatic Speech Recognition	Apr 10, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Cytometry: Deep learning with Real-time Inference in Cell Sorting and Flow Cytometry	Apr 9, 2019	Computational EfficiencyDeep Learning	—Unverified	0
Performance Monitoring for End-to-End Speech Recognition	Apr 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Who Needs Words? Lexicon-Free Speech Recognition	Apr 9, 2019	speech-recognitionSpeech Recognition	—Unverified	0
SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning	Apr 8, 2019	Brain Computer InterfaceGeneral Classification	—Unverified	0

Show:10 25 50

← PrevPage 93 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified