Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2501–2550 of 6433 papers

Title	Date	Tasks	Status	Hype
Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation	Apr 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Investigation of Monotonic Transducers for Large-Scale Automatic Speech Recognition	Apr 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking	Apr 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automated speech tools for helping communities process restricted-access corpora for language revival efforts	Apr 15, 2022	Action DetectionActivity Detection	—Unverified	0
Lombard Effect for Bilingual Speakers in Cantonese and English: importance of spectro-temporal features	Apr 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Study of Indian English Pronunciation Variabilities relative to Received Pronunciation	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-critical Sequence Training for Automatic Speech Recognition	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
CorrectSpeech: A Fully Automated System for Speech Correction and Accent Reduction	Apr 12, 2022	speech-recognitionSpeech Recognition	—Unverified	0
ASR in German: A Detailed Error Analysis	Apr 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding	Apr 11, 2022	DecoderLipreading	—Unverified	0
Large-Scale Streaming End-to-End Speech Translation with Neural Transducers	Apr 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unified Speech-Text Pre-training for Speech Translation and Recognition	Apr 11, 2022	Decoderspeech-recognition	—Unverified	0
Building an ASR Error Robust Spoken Virtual Patient System in a Highly Class-Imbalanced Scenario Without Speech Data	Apr 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Embeddings for Robust User-Based Amateur Vocal Percussion Classification	Apr 10, 2022	Classificationfeature selection	—Unverified	0
Unsupervised Uncertainty Measures of Automatic Speech Recognition for Non-intrusive Speech Intelligibility Prediction	Apr 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Auditory-Based Data Augmentation for End-to-End Automatic Speech Recognition	Apr 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired Listeners	Apr 8, 2022	PredictionSpeech Enhancement	CodeCode Available	0
Adding Connectionist Temporal Summarization into Conformer to Improve Its Decoder Efficiency For Speech Recognition	Apr 8, 2022	Decoderspeech-recognition	—Unverified	0
Defense against Adversarial Attacks on Hybrid Speech Recognition using Joint Adversarial Fine-tuning with Denoiser	Apr 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition	Apr 8, 2022	speech-recognitionSpeech Recognition	CodeCode Available	0
Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition	Apr 8, 2022	Action DetectionActivity Detection	—Unverified	0
Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0	Apr 7, 2022	Multi-Task Learningspeech-recognition	—Unverified	0
Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-trained DNN-HMM-Based Acoustic-Phonetic Model	Apr 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MAESTRO: Matched Speech Text Representations through Modality Matching	Apr 7, 2022	Language ModellingSelf-Supervised Learning	—Unverified	0
3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech recognition	Apr 7, 2022	Mixture-of-Expertsspeech-recognition	CodeCode Available	1
Enabling All In-Edge Deep Learning: A Literature Review	Apr 7, 2022	AllDeep Learning	—Unverified	0
A Wav2vec2-Based Experimental Study on Self-Supervised Learning Methods to Improve Child Speech Recognition	Apr 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Successes and critical failures of neural networks in capturing human-like speech recognition	Apr 6, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Emotional Speech Recognition with Pre-trained Deep Visual Models	Apr 6, 2022	Emotion Recognitionspeech-recognition	CodeCode Available	0
Simple and Effective Unsupervised Speech Synthesis	Apr 6, 2022	speech-recognitionSpeech Recognition	—Unverified	0
A survey on recently proposed activation functions for Deep Learning	Apr 6, 2022	Deep Learningspeech-recognition	—Unverified	0
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation	Apr 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unsupervised Data Selection via Discrete Speech Representation for ASR	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Disentangled Speech Representation Learning Based on Factorized Hierarchical Variational Autoencoder with Self-Supervised Objective	Apr 5, 2022	DisentanglementRepresentation Learning	—Unverified	0
Audio-visual multi-channel speech separation, dereverberation and recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards End-to-end Unsupervised Speech Recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Low-Latency Speech Separation Guided Diarization for Telephone Conversations	Apr 5, 2022	Action DetectionActivity Detection	CodeCode Available	1
Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning	Apr 5, 2022	Adversarial AttackAdversarial Robustness	—Unverified	0
Deliberation Model for On-Device Spoken Language Understanding	Apr 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Analysis of Semantically-Aligned Speech-Text Embeddings	Apr 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition	Apr 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems	Apr 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices	Apr 4, 2022	Speaker Verificationspeech-recognition	—Unverified	0
Deep Speech Based End-to-End Automated Speech Recognition (ASR) for Indian-English Accents	Apr 3, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Speaker adaptation for Wav2vec2 based dysarthric ASR	Apr 2, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge Distillation	Apr 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 51 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified