Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2351–2400 of 6433 papers

Title	Date	Tasks	Status
Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation	Nov 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution	Nov 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
SpeechNet: Weakly Supervised, End-to-End Speech Recognition at Industrial Scale	Nov 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards continually learning new languages	Nov 21, 2022	Allspeech-recognition	—Unverified
Constructing Effective Machine Learning Models for the Sciences: A Multidisciplinary Perspective	Nov 21, 2022	regressionspeech-recognition	—Unverified
Exploring WavLM on Speech Enhancement	Nov 18, 2022	Self-Supervised LearningSpeech Enhancement	—Unverified
Unsupervised Model-based speaker adaptation of end-to-end lattice-free MMI model for speech recognition	Nov 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LongFNT: Long-form Speech Recognition with Factorized Neural Transducer	Nov 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review	Nov 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On using the UA-Speech and TORGO databases to validate automatic dysarthric speech classification approaches	Nov 16, 2022	Action DetectionActivity Detection	—Unverified
Streaming Joint Speech Recognition and Disfluency Detection	Nov 16, 2022	DecoderLanguage Modelling	CodeCode Available
L2 proficiency assessment using self-supervised speech representations	Nov 16, 2022	speech-recognitionSpeech Recognition	—Unverified
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved disentangled speech representations using contrastive learning in factorized hierarchical variational autoencoder	Nov 15, 2022	Contrastive LearningDisentanglement	—Unverified
Introducing Semantics into Speech Encoders	Nov 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations	Nov 14, 2022	Self-Supervised Learningspeech-recognition	CodeCode Available
FullPack: Full Vector Utilization for Sub-Byte Quantized Inference on General Purpose CPUs	Nov 13, 2022	CPUQuantization	—Unverified
An Adapter based Multi-label Pre-training for Speech Separation and Enhancement	Nov 11, 2022	DenoisingPseudo Label	—Unverified
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation	Nov 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Continuous Soft Pseudo-Labeling in ASR	Nov 11, 2022	speech-recognitionSpeech Recognition	—Unverified
The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification	Nov 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Handling Trade-Offs in Speech Separation with Sparsely-Gated Mixture of Experts	Nov 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models for Spoken Language Understanding	Nov 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-supervised learning with bi-label masked speech prediction for streaming multi-talker speech recognition	Nov 10, 2022	Representation LearningSelf-Supervised Learning	—Unverified
Adaptive Multi-Corpora Language Model Training for Speech Recognition	Nov 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition	Nov 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features	Nov 8, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Robust Unstructured Knowledge Access in Conversational Dialogue with ASR Errors	Nov 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition	Nov 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Evaluation of a Spoken Dialogue System for Learning Basic Mathematics	Nov 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR	Nov 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers	Nov 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective	Nov 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability	Nov 4, 2022	Machine Translationspeech-recognition	—Unverified
Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered Speech	Nov 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Resource-Efficient Transfer Learning From Speech Foundation Model Using Hierarchical Feature Fusion	Nov 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition	Nov 4, 2022	speech-recognitionSpeech Recognition	—Unverified
Biased Self-supervised learning for ASR	Nov 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
H_eval: A new hybrid evaluation metric for automatic speech recognition tasks	Nov 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Domain Features for Detecting Adversarial Attacks Against Deep Speech Recognition in Noise	Nov 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Data Augmentation Using VAE-GAN for Disordered Speech Recognition	Nov 3, 2022	Data AugmentationGenerative Adversarial Network	—Unverified
Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system	Nov 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Probing Statistical Representations For End-To-End ASR	Nov 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder	Nov 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Variable Attention Masking for Configurable Transformer Transducer Speech Recognition	Nov 2, 2022	speech-recognitionSpeech Recognition	—Unverified
More Speaking or More Speakers?	Nov 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Monolingual Recognizers Fusion for Code-switching Speech Recognition	Nov 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Zero-Shot Code-Switched Speech Recognition	Nov 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 48 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified