Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4651–4700 of 6433 papers

Title	Date	Tasks	Status
A Hardware-Oriented and Memory-Efficient Method for CTC Decoding	May 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning Optimal Data Augmentation Policies via Bayesian Optimization for Image Classification Tasks	May 6, 2019	Bayesian OptimizationData Augmentation	CodeCode Available
Meeting Transcription Using Virtual Microphone Arrays	May 3, 2019	speaker-diarizationSpeaker Diarization	—Unverified
Parity Models: A General Framework for Coding-Based Resilience in ML Inference	May 2, 2019	BIG-bench Machine Learningimage-classification	—Unverified
Curvature: A signature for Action Recognition in Video Sequences	Apr 30, 2019	Action RecognitionFew-Shot Learning	—Unverified
English Broadcast News Speech Recognition by Humans and Machines	Apr 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Very Deep Self-Attention Networks for End-to-End Speech Recognition	Apr 30, 2019	speech-recognitionSpeech Recognition	—Unverified
Deep Learning for Audio Signal Processing	Apr 30, 2019	Audio Signal ProcessingAutomatic Speech Recognition	CodeCode Available
Semi-supervised Sequence-to-sequence ASR using Unpaired Speech and Text	Apr 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speaker Adaptation	Apr 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Geometry Spatial Acoustic Modeling for Distant Speech Recognition	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Attentive Adversarial Learning for Domain-Invariant Training	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Assessing the Tolerance of Neural Machine Translation Systems Against Speech Recognition Errors	Apr 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Phonetically-Oriented Word Error Alignment for Speech Recognition Error Analysis in Speech Translation	Apr 24, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Realizing Petabyte Scale Acoustic Modeling	Apr 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Natural Language Interactions in Autonomous Vehicles: Intent Detection and Slot Filling from Passenger Utterances	Apr 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NLP Driven Ensemble Based Automatic Subtitle Generation and Semantic Video Summarization Technique	Apr 22, 2019	speech-recognitionSpeech Recognition	—Unverified
A Novel Task-Oriented Text Corpus in Silent Speech Recognition and its Natural Language Generation Construction Method	Apr 19, 2019	Data-to-Text GenerationDiversity	—Unverified
An Investigation of End-to-End Multichannel Speech Recognition for Reverberant and Mismatch Conditions	Apr 19, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TTS Skins: Speaker Conversion via ASR	Apr 18, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition	Apr 17, 2019	Decoderspeech-recognition	—Unverified
End-to-End Speech Translation with Knowledge Distillation	Apr 17, 2019	Knowledge Distillationspeech-recognition	—Unverified
Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge Distillation	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hard Sample Mining for the Improved Retraining of Automatic Speech Recognition	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multi-Task Learning Framework for Overcoming the Catastrophic Forgetting in Automatic Speech Recognition	Apr 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
HARK Side of Deep Learning -- From Grad Student Descent to Automated Machine Learning	Apr 16, 2019	BIG-bench Machine LearningDecision Making	—Unverified
CRF-based Single-stage Acoustic Modeling with CTC Topology	Apr 16, 2019	BenchmarkingSpeech Recognition	—Unverified
Attention-Passing Models for Robust and Data-Efficient End-to-End Speech Translation	Apr 15, 2019	Machine Translationspeech-recognition	—Unverified
SpeechYOLO: Detection and Localization of Speech Objects	Apr 14, 2019	General ClassificationKeyword Spotting	—Unverified
Low-Latency Speaker-Independent Continuous Speech Separation	Apr 13, 2019	speech-recognitionSpeech Recognition	—Unverified
STC Speaker Recognition Systems for the VOiCES From a Distance Challenge	Apr 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Speech Domain Adaptation Based on Disentangled Representation Learning for Robust Speech Recognition	Apr 12, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
From Semi-supervised to Almost-unsupervised Speech Recognition with Very-low Resource by Jointly Learning Phonetic Structures from Audio and Text Embeddings	Apr 10, 2019	speech-recognitionSpeech Recognition	—Unverified
Distributed Deep Learning Strategies For Automatic Speech Recognition	Apr 10, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Cytometry: Deep learning with Real-time Inference in Cell Sorting and Flow Cytometry	Apr 9, 2019	Computational EfficiencyDeep Learning	—Unverified
Who Needs Words? Lexicon-Free Speech Recognition	Apr 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Performance Monitoring for End-to-End Speech Recognition	Apr 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring Methods for the Automatic Detection of Errors in Manual Transcription	Apr 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Completely Unsupervised Speech Recognition By A Generative Adversarial Network Harmonized With Iteratively Refined Hidden Markov Models	Apr 8, 2019	Generative Adversarial Networkspeech-recognition	—Unverified
SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning	Apr 8, 2019	Brain Computer InterfaceGeneral Classification	—Unverified
Knowledge Distillation For Recurrent Neural Network Language Modeling With Trust Regularization	Apr 8, 2019	Knowledge DistillationLanguage Modeling	—Unverified
A Target-Agnostic Attack on Deep Models: Exploiting Security Vulnerabilities of Transfer Learning	Apr 8, 2019	Face RecognitionImage Classification	CodeCode Available
Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data	Apr 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enriching Rare Word Representations in Neural Language Models by Embedding Matrix Augmentation	Apr 8, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Spoken Language Intent Detection using Confusion2Vec	Apr 7, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Token-Level Ensemble Distillation for Grapheme-to-Phoneme Conversion	Apr 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Jasper: An End-to-End Convolutional Neural Acoustic Model	Apr 5, 2019	DecoderLanguage Modeling	CodeCode Available
Sequence-to-Sequence Speech Recognition with Time-Depth Separable Convolutions	Apr 4, 2019	DecoderLanguage Modeling	—Unverified
Massively Multilingual Adversarial Speech Recognition	Apr 3, 2019	General Classificationspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 94 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified