Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3601–3650 of 6433 papers

Title	Date	Tasks	Status
Leveraging End-to-End ASR for Endangered Language Documentation: An Empirical Study on Yol\'oxochitl Mixtec	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dialect Identification through Adversarial Learning and Knowledge Distillation on Romanian BERT	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tutorial Proposal: End-to-End Speech Translation	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Context-sensitive evaluation of automatic speech recognition: considering user experience & language variation	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Configurable Privacy-Preserving Automatic Speech Recognition	Apr 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Survey on Paralinguistics in Tamil Speech Processing	Apr 1, 2021	Emotion RecognitionSpeaker Identification	—Unverified
Interactive spatial speech recognition maps based on simulated speech recognition experiments	Apr 1, 2021	speech-recognitionSpeech Recognition	—Unverified
XY Neural Networks	Mar 31, 2021	speech-recognitionSpeech Recognition	—Unverified
Compressing 1D Time-Channel Separable Convolutions using Sparse Random Ternary Matrices	Mar 31, 2021	speech-recognitionSpeech Recognition	—Unverified
Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting Transcription with Single Distant Microphone	Mar 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech Recognition	Mar 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Attacks and Defenses for Speech Recognition Systems	Mar 31, 2021	Adversarial RobustnessAutomatic Speech Recognition	—Unverified
A study of latent monotonic attention variants	Mar 30, 2021	Hard Attentionspeech-recognition	—Unverified
Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end speech recognition	Mar 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transformer-based end-to-end speech recognition with residual Gaussian-based self-attention	Mar 29, 2021	speech-recognitionSpeech Recognition	—Unverified
Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays	Mar 29, 2021	channel selectionspeech-recognition	—Unverified
Improved Meta-Learning Training for Speaker Verification	Mar 29, 2021	Data AugmentationMeta-Learning	—Unverified
Shrinking Bigfoot: Reducing wav2vec 2.0 footprint	Mar 29, 2021	Model Compressionspeech-recognition	—Unverified
Quantifying Bias in Automatic Speech Recognition	Mar 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
BART based semantic correction for Mandarin automatic speech recognition system	Mar 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Construction of a Large-scale Japanese ASR Corpus on TV Recordings	Mar 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mutually-Constrained Monotonic Multihead Attention for Online ASR	Mar 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Approach to Improve Robustness of NLP Systems against ASR Errors	Mar 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Real-time low-resource phoneme recognition on edge devices	Mar 25, 2021	Phoneme Recognitionspeech-recognition	CodeCode Available
Residual Energy-Based Models for End-to-End Speech Recognition	Mar 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Privacy with Smart Digital Assistants in Educational Settings	Mar 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hallucination of speech recognition errors with sequence to sequence learning	Mar 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evolving Learning Rate Optimizers for Deep Neural Networks	Mar 23, 2021	speech-recognitionSpeech Recognition	—Unverified
SoK: A Modularized Approach to Study the Security of Automatic Speech Recognition Systems	Mar 19, 2021	Adversarial AttackAutomatic Speech Recognition	CodeCode Available
Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents	Mar 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation	Mar 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advancing RNN Transducer Technology for Speech Recognition	Mar 17, 2021	Language ModelingLanguage Modelling	—Unverified
Distributed Deep Learning Using Volunteer Computing-Like Paradigm	Mar 16, 2021	Deep Learningimage-classification	—Unverified
XLST: Cross-lingual Self-training to Learn Multilingual Representation for Low Resource Speech Recognition	Mar 15, 2021	Data AugmentationRepresentation Learning	—Unverified
Towards the evaluation of automatic simultaneous speech translation from a communicative perspective	Mar 15, 2021	automatic-speech-translationInformativeness	—Unverified
EdgeCRNN: an edgecomputing oriented model of acoustic feature enhancement for keyword spotting	Mar 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OkwuGbé: End-to-End Speech Recognition for Fon and Igbo	Mar 13, 2021	Machine Translationspeech-recognition	CodeCode Available
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition	Mar 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Distributed Optimisation Framework Combining Natural Gradient with Hessian-Free for Discriminative Sequence Training	Mar 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Uncertainty-guided Model Generalization to Unseen Domains	Mar 12, 2021	Domain Generalizationimage-classification	—Unverified
Learning Word-Level Confidence For Subword End-to-End ASR	Mar 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Best of Both Worlds: Robust Accented Speech Recognition with Adversarial Transfer Learning	Mar 10, 2021	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks	Mar 10, 2021	speech-recognitionSpeech Recognition	—Unverified
Contrastive Semi-supervised Learning for ASR	Mar 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Ultra-low Power RNN Classifier for Always-On Voice Wake-Up Detection Robust to Real-World Scenarios	Mar 8, 2021	Action DetectionActivity Detection	—Unverified
Neural model robustness for skill routing in large-scale conversational AI systems: A design choice exploration	Mar 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Domain Generalization: A Survey	Mar 3, 2021	Action RecognitionData Augmentation	—Unverified
Continuous Speech Separation with Ad Hoc Microphone Arrays	Mar 3, 2021	speech-recognitionSpeech Recognition	—Unverified
The Spatial Selective Auditory Attention of Cochlear Implant Users in Different Conversational Sound Levels	Mar 3, 2021	EEGElectroencephalogram (EEG)	—Unverified
Incorporating VAD into ASR System by Multi-task Learning	Mar 2, 2021	Action DetectionActivity Detection	—Unverified

Show:10 25 50

← PrevPage 73 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified