Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 6433 papers

Title	Date	Tasks	Status	Hype
Joint Masked CPC and CTC Training for ASR	Oct 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Speech SIMCLR: Combining Contrastive and Reconstruction Objective for Self-supervised Speech Representation Learning	Oct 27, 2020	Emotion RecognitionRepresentation Learning	CodeCode Available	1
Decentralizing Feature Extraction with Quantum Convolutional Neural Network for Automatic Speech Recognition	Oct 26, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Confidence Estimation for Attention-based Sequence-to-sequence Models for Speech Recognition	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition	Oct 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Towards Resistant Audio Adversarial Examples	Oct 14, 2020	Adversarial Attackspeech-recognition	CodeCode Available	1
Google Crowdsourced Speech Corpora and Related Open-Source Resources for Low-Resource Languages and Dialects: An Overview	Oct 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling	Oct 8, 2020	Speech Recognitiontext-to-speech	CodeCode Available	1
Representation Learning for Sequence Data with Deep Autoencoding Predictive Components	Oct 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Online Neural Networks for Change-Point Detection	Oct 3, 2020	Change Point Detectionspeech-recognition	CodeCode Available	1
Differentiable Weighted Finite-State Transducers	Oct 2, 2020	Handwriting Recognitionspeech-recognition	CodeCode Available	1
Improving Vietnamese Named Entity Recognition from Speech Using Word Capitalization and Punctuation Recovery Models	Oct 1, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
End-to-End Speech Recognition and Disfluency Removal	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech Recognition Baseline	Sep 22, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Consecutive Decoding for Speech-to-text Translation	Sep 21, 2020	DecoderMachine Translation	CodeCode Available	1
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Libri-Adapt: A New Speech Dataset for Unsupervised Domain Adaptation	Sep 6, 2020	Domain Adaptationspeech-recognition	CodeCode Available	1
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling	Sep 6, 2020	feature selectionspeech-recognition	CodeCode Available	1
Compiling ONNX Neural Network Models Using MLIR	Aug 19, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Computer-Generated Music for Tabletop Role-Playing Games	Aug 16, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Sum-Product Networks for Robust Automatic Speaker Identification	Aug 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Investigation of End-To-End Speaker-Attributed ASR for Continuous Multi-Talker Recordings	Aug 11, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR	Aug 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Word Error Rate Estimation Without ASR Output: e-WER2	Aug 8, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Pretraining Techniques for Sequence-to-Sequence Voice Conversion	Aug 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Online Spatio-Temporal Learning in Deep Neural Networks	Jul 24, 2020	Language Modellingspeech-recognition	CodeCode Available	1
CoVoST 2 and Massively Multilingual Speech-to-Text Translation	Jul 20, 2020	Machine Translationspeech-recognition	CodeCode Available	1
Automatic Lyrics Transcription using Dilated Convolutional Neural Networks with Self-Attention	Jul 13, 2020	Automatic Lyrics Transcriptionspeech-recognition	CodeCode Available	1
TERA: Self-Supervised Learning of Transformer Encoder Representation for Speech	Jul 12, 2020	Keyword SpottingSelf-Supervised Learning	CodeCode Available	1
DARF: A data-reduced FADE version for simulations of speech recognition thresholds with real hearing aids	Jul 10, 2020	Sentencespeech-recognition	CodeCode Available	1
AdaScale SGD: A User-Friendly Algorithm for Distributed Training	Jul 9, 2020	image-classificationImage Classification	CodeCode Available	1
Unsupervised Cross-lingual Representation Learning for Speech Recognition	Jun 24, 2020	QuantizationRepresentation Learning	CodeCode Available	1
Automatic Speech Recognition Benchmark for Air-Traffic Communications	Jun 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AVLnet: Learning Audio-Visual Language Representations from Instructional Videos	Jun 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Emotion Recognition in Audio and Video Using Deep Neural Networks	Jun 15, 2020	Deep LearningEmotion Recognition	CodeCode Available	1
Learning to Count Words in Fluent Speech enables Online Speech Recognition	Jun 8, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Improved acoustic word embeddings for zero-resource languages using multilingual transfer	Jun 2, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives	Jun 2, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Subword RNNLM Approximations for Out-Of-Vocabulary Keyword Search	May 28, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition	May 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Adapting End-to-End Speech Recognition for Readable Subtitles	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
End-to-end Named Entity Recognition from English Speech	May 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR	May 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Further Study of Unsupervised Pre-training for Transformer Based Speech Recognition	May 20, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Improved Noisy Student Training for Automatic Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
GEV Beamforming Supported by DOA-based Masks Generated on Pairs of Microphones	May 19, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Distilling Knowledge from Ensembles of Acoustic Models for Joint CTC-Attention End-to-End Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Should we hard-code the recurrence concept or learn it instead ? Exploring the Transformer architecture for Audio-Visual Speech Recognition	May 19, 2020	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Enhancing Monotonic Multihead Attention for Streaming ASR	May 19, 2020	AllAutomatic Speech Recognition	CodeCode Available	1
Speech Recognition and Multi-Speaker Diarization of Long Conversations	May 16, 2020	Data Augmentationspeaker-diarization	CodeCode Available	1

Show:10 25 50

← PrevPage 11 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified