Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3651–3700 of 6433 papers

Title	Date	Tasks	Status
Alignment Knowledge Distillation for Online Streaming Attention-based Speech Recognition	Feb 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech Recognition	Feb 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploiting Attention-based Sequence-to-Sequence Architectures for Sound Event Localization	Feb 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Silent versus modal multi-speaker speech recognition from ultrasound and video	Feb 27, 2021	Silent Speech Recognitionspeech-recognition	—Unverified
MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition	Feb 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Meta-Learning for improving rare word recognition in end-to-end ASR	Feb 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Enhancement Using Multi-Stage Self-Attentive Temporal Convolutional Networks	Feb 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Thoughts on the potential to compensate a hearing loss in noise	Feb 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SEP-28k: A Dataset for Stuttering Event Detection From Podcasts With People Who Stutter	Feb 24, 2021	Event Detectionspeech-recognition	—Unverified
Senone-aware Adversarial Multi-task Training for Unsupervised Child to Adult Speech Adaptation	Feb 23, 2021	speech-recognitionSpeech Recognition	—Unverified
Memory-efficient Speech Recognition on Smart Devices	Feb 23, 2021	speech-recognitionSpeech Recognition	—Unverified
End-to-End Dereverberation, Beamforming, and Speech Recognition with Improved Numerical Stability and Advanced Frontend	Feb 23, 2021	Action DetectionActivity Detection	—Unverified
Unidirectional Memory-Self-Attention Transducer for Online Speech Recognition	Feb 23, 2021	Decoderspeech-recognition	—Unverified
Evolutionary optimization of contexts for phonetic correction in speech recognition systems	Feb 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain	Feb 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model	Feb 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Use of Voice Source Features for Sung Speech Recognition	Feb 20, 2021	speech-recognitionSpeech Recognition	—Unverified
End-to-End Neural Systems for Automatic Children Speech Recognition: An Empirical Study	Feb 19, 2021	speech-recognitionSpeech Recognition	—Unverified
Echo State Speech Recognition	Feb 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fixing Errors of the Google Voice Recognizer through Phonetic Distance Metrics	Feb 18, 2021	Language ModelingLanguage Modelling	—Unverified
Gaussian Kernelized Self-Attention for Long Sequence Data and Its Application to CTC-based Speech Recognition	Feb 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fundamental Frequency Feature Normalization and Data Augmentation for Child Speech Recognition	Feb 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Do End-to-End Speech Recognition Models Care About Context?	Feb 17, 2021	DecoderLanguage Modeling	—Unverified
ATCSpeechNet: A multilingual end-to-end speech recognition framework for air traffic control systems	Feb 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hierarchical Transformer-based Large-Context End-to-end ASR with Large-Context Knowledge Distillation	Feb 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Learning based Multi-Source Localization with Source Splitting and its Effectiveness in Multi-Talker Speech Recognition	Feb 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving speech recognition models with small samples for air traffic control systems	Feb 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Automatic Speech Recognition with Deep Mutual Learning	Feb 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon	Feb 15, 2021	Language ModellingSentence	—Unverified
Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT	Feb 15, 2021	DecoderLanguage Modeling	—Unverified
Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and language Models for Intent Classification	Feb 15, 2021	ClassificationGeneral Classification	—Unverified
Personalization Strategies for End-to-End Speech Recognition Systems	Feb 15, 2021	speech-recognitionSpeech Recognition	—Unverified
Robust Classification using Hidden Markov Models and Mixtures of Normalizing Flows	Feb 15, 2021	General ClassificationRobust classification	—Unverified
Thank you for Attention: A survey on Attention-based Artificial Neural Networks for Automatic Speech Recognition	Feb 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transformer-Based Approaches for Automatic Music Transcription	Feb 12, 2021	Language ModellingMusic Transcription	CodeCode Available
Do as I mean, not as I say: Sequence Loss Training for Spoken Language Understanding	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Content-Aware Speaker Embeddings for Speaker Diarisation	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Punctuation Prediction with Contextual Dropout	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hybrid phonetic-neural model for correction in speech recognition systems	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Bi-APC: Bidirectional Autoregressive Predictive Coding for Unsupervised Pre-training and Its Application to Children's ASR	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast Classification Learning with Neural Networks and Conceptors for Speech Recognition and Car Driving Maneuvers	Feb 10, 2021	speech-recognitionSpeech Recognition	—Unverified
Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation	Feb 10, 2021	Language ModelingLanguage Modelling	—Unverified
NUVA: A Naming Utterance Verifier for Aphasia Treatment	Feb 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Train your classifier first: Cascade Neural Networks Training from upper layers to lower layers	Feb 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sparsification via Compressed Sensing for Automatic Speech Recognition	Feb 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bayesian Transformer Language Models for Speech Recognition	Feb 9, 2021	speech-recognitionSpeech Recognition	—Unverified
Effects of Layer Freezing on Transferring a Speech Recognition System to Under-resourced Languages	Feb 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
End-to-End Multi-Channel Transformer for Speech Recognition	Feb 8, 2021	Decoderspeech-recognition	—Unverified
Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism	Feb 7, 2021	Speech Extractionspeech-recognition	—Unverified
A bandit approach to curriculum generation for automatic speech recognition	Feb 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 74 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified