Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3001–3050 of 6433 papers

Title	Date	Tasks	Status
RED-ACE: Robust Error Detection for ASR using Confidence Embeddings	Jan 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition	Jan 14, 2022	Data Augmentationspeech-recognition	—Unverified
Investigation of Data Augmentation Techniques for Disordered Speech Recognition	Jan 14, 2022	Data Augmentationspeech-recognition	—Unverified
The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition	Jan 13, 2022	Generative Adversarial NetworkPhoneme Recognition	—Unverified
Learning to Enhance or Not: Neural Network-Based Switching of Enhanced and Observed Signals for Overlapping Speech Recognition	Jan 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Likelihood Ratio based Domain Adaptation Method for E2E Models	Jan 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection	Jan 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Two-Pass End-to-End ASR Model Compression	Jan 8, 2022	DecoderKnowledge Distillation	—Unverified
Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks	Jan 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset	Jan 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Textual Data Augmentation for Arabic-English Code-Switching Speech Recognition	Jan 7, 2022	Data AugmentationLanguage Modeling	—Unverified
Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question	Jan 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions	Jan 3, 2022	Sentiment Analysisspeech-recognition	—Unverified
Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation	Jan 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Temporal Attention Augmented Transformer Hawkes Process	Dec 29, 2021	speech-recognitionSpeech Recognition	—Unverified
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech	Dec 27, 2021	Language Acquisitionspeech-recognition	—Unverified
Multi-Dialect Arabic Speech Recognition	Dec 25, 2021	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified
Multi-Variant Consistency based Self-supervised Learning for Robust Automatic Speech Recognition	Dec 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue Modeling on Spoken Conversations	Dec 23, 2021	Data Augmentationspeech-recognition	—Unverified
VoiceMoji: A Novel On-Device Pipeline for Seamless Emoji Insertion in Dictation	Dec 22, 2021	speech-recognitionSpeech Recognition	—Unverified
Voice Quality and Pitch Features in Transformer-Based Speech Recognition	Dec 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks	Dec 20, 2021	Machine Translationspeech-recognition	—Unverified
Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching	Dec 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-turn RNN-T for streaming recognition of multi-party speech	Dec 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigation of Densely Connected Convolutional Networks with Domain Adversarial Learning for Noise Robust Speech Recognition	Dec 19, 2021	Robust Speech Recognitionspeech-recognition	—Unverified
Continual Learning for Monolingual End-to-End Automatic Speech Recognition	Dec 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A singular Riemannian geometry approach to Deep Neural Networks I. Theoretical foundations	Dec 17, 2021	Machine Translationspeech-recognition	—Unverified
Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems	Dec 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Use of External Data for Spoken Named Entity Recognition	Dec 14, 2021	Knowledge Distillationnamed-entity-recognition	CodeCode Available
Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robustifying automatic speech recognition by extracting slowly varying features	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ImportantAug: a data augmentation agent for speech	Dec 14, 2021	Data AugmentationKeyword Spotting	CodeCode Available
Real-Time Neural Voice Camouflage	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PM-MMUT: Boosted Phone-Mask Data Augmentation using Multi-Modeling Unit Training for Phonetic-Reduction-Robust E2E Speech Recognition	Dec 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Speech Recognition on Noisy Speech via Speech Enhancement with Multi-Discriminators CycleGAN	Dec 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Code-switching Language Modeling with Artificially Generated Texts using Cycle-consistent Adversarial Networks	Dec 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Revisiting the Boundary between ASR and NLU in the Age of Conversational Dialog Systems	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building a great multi-lingual teacher with sparsely-gated mixture of experts for speech recognition	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequence-level self-learning with multiple hypotheses	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Are E2E ASR models ready for an industrial usage?	Dec 9, 2021	speech-recognitionSpeech Recognition	—Unverified
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified
A study on native American English speech recognition by Indian listeners with varying word familiarity level	Dec 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword Wakeup Challenge	Dec 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Catch Me If You Can: Blackbox Adversarial Attacks on Automatic Speech Recognition using Frequency Masking	Dec 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Mixture of Expert Based Deep Neural Network for Improved ASR	Dec 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized Stochastic Gradient Descent	Dec 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A higher order Minkowski loss for improved prediction ability of acoustic model in ASR	Dec 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An End-to-End Speech Recognition for the Nepali Language	Dec 1, 2021	DecoderLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 61 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified