Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2401–2450 of 6433 papers

Title	Date	Tasks	Status	Hype
Samrómur Children: An Icelandic Speech Corpus	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards an Open-Source Dutch Speech Recognition System for the Healthcare Domain	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance Languages	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Samrómur: Crowd-sourcing large amounts of data	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Mesures linguistiques automatiques pour l’évaluation des systèmes de Reconnaissance Automatique de la Parole (Automated linguistic measures for automatic speech recognition systems’ evaluation)	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Adversarial synthesis based data-augmentation for code-switched spoken language identification	May 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speaker Identification using Speech Recognition	May 29, 2022	Speaker Identificationspeech-recognition	—Unverified	0
Adaptive Activation Network For Low Resource Multilingual Speech Recognition	May 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified	0
Punctuation Restoration in Spanish Customer Support Transcripts using Transfer Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Contrastive Siamese Network for Semi-supervised Speech Recognition	May 27, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Global Normalization for Streaming Speech Recognition in a Modular Framework	May 26, 2022	speech-recognitionSpeech Recognition	CodeCode Available	1
Contextual Adapters for Personalized Speech Recognition in Neural Transducers	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Clinical Dialogue Transcription Error Correction using Seq2Seq Models	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
On Building Spoken Language Understanding Systems for Low Resourced Languages	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Investigating Lexical Replacements for Arabic-English Code-Switched Data Augmentation	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving CTC-based ASR Models with Gated Interlayer Collaboration	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Heterogeneous Reservoir Computing Models for Persian Speech Recognition	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Investigation on Applying Acoustic Feature Conversion to ASR of Adult and Child Speech	May 25, 2022	AttributeAutomatic Speech Recognition	—Unverified	0
Semantic-preserved Communication System for Highly Efficient Speech Transmission	May 25, 2022	Semantic Communicationspeech-recognition	—Unverified	0
DPSNN: A Differentially Private Spiking Neural Network with Temporal Enhanced Pooling	May 24, 2022	Face RecognitionImage Classification	—Unverified	0
Adaptive multilingual speech recognition with pretrained models	May 24, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition	May 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks for Lighter, Faster and Robust Models	May 23, 2022	Data AugmentationInformation Retrieval	CodeCode Available	0
Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust Intent Detection	May 23, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified	0
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1
Self-Supervised Speech Representation Learning: A Review	May 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
NeuralEcho: A Self-Attentive Recurrent Neural Network For Unified Acoustic Echo Suppression And Speech Enhancement	May 20, 2022	Acoustic echo cancellationSpeech Enhancement	—Unverified	0
PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit	May 20, 2022	AllAutomatic Speech Recognition (ASR)	CodeCode Available	6
Predicting electrode array impedance after one month from cochlear implantation surgery	May 20, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Set-based Meta-Interpolation for Few-Task Meta-Learning	May 20, 2022	Bilevel Optimizationimage-classification	—Unverified	0
Content-Context Factorized Representations for Automated Speech Recognition	May 19, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Automatic Spoken Language Identification using a Time-Delay Neural Network	May 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Insights on Neural Representations for End-to-End Speech Recognition	May 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator	May 18, 2022	Dialogue State TrackingLanguage Modelling	—Unverified	0
Streaming Noise Context Aware Enhancement For Automatic Speech Recognition in Multi-Talker Environments	May 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deploying self-supervised learning in the wild for hybrid automatic speech recognition	May 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Accented Speech Recognition: Benchmarking, Pre-training, and Diverse Data	May 16, 2022	Accented Speech RecognitionBenchmarking	—Unverified	0
Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge	May 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing	May 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Who Are We Talking About? Handling Person Names in Speech Translation	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unified Modeling of Multi-Domain Multi-Device ASR Systems	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition	May 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improved Meta Learning for Low Resource Speech Recognition	May 11, 2022	Meta-Learningspeech-recognition	—Unverified	0
A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active Speaker Selection	May 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 49 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified