Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2750 of 6433 papers

Title	Date	Tasks	Status
Mesures linguistiques automatiques pour l’évaluation des systèmes de Reconnaissance Automatique de la Parole (Automated linguistic measures for automatic speech recognition systems’ evaluation)	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Systematic Approach to Derive a Refined Speech Corpus for Sinhala	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Conversational Speech Recognition Needs Data? Experiments with Austrian German	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Post-Stroke Speech Transcription Challenge (Task B): Correctness Detection in Anomia Diagnosis with Imperfect Transcripts	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Samrómur Children: An Icelandic Speech Corpus	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Handwriting recognition for Scottish Gaelic	Jun 1, 2022	Handwriting Recognitionspeech-recognition	—Unverified
Standard German Subtitling of Swiss German TV content: the PASSAGE Project	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Towards an Open-Source Dutch Speech Recognition System for the Healthcare Domain	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Huqariq: A Multilingual Speech Corpus of Native Languages of Peru forSpeech Recognition	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Semi-Automated Live Interlingual Communication Workflow Featuring Intralingual Respeaking: Evaluation and Benchmarking	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generating Synthetic Clinical Speech Data through Simulated ASR Deletion Error	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SSR7000: A Synchronized Corpus of Ultrasound Tongue Imaging for End-to-End Silent Speech Recognition	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and Inuktut	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance Languages	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Evaluation of Off-the-shelf Speech Recognizers on Different Accents in a Dialogue Domain	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building Open-source Speech Technology for Low-resource Minority Languages with SáMi as an Example – Tools, Methods and Experiments	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ParlaSpeech-HR - a Freely Available ASR Dataset for Croatian Bootstrapped from the ParlaMint Corpus	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ParlamentParla: A Speech Corpus of Catalan Parliamentary Sessions	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Samrómur: Crowd-sourcing large amounts of data	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Adversarial synthesis based data-augmentation for code-switched spoken language identification	May 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Identification using Speech Recognition	May 29, 2022	Speaker Identificationspeech-recognition	—Unverified
Adaptive Activation Network For Low Resource Multilingual Speech Recognition	May 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified
Punctuation Restoration in Spanish Customer Support Transcripts using Transfer Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Contrastive Siamese Network for Semi-supervised Speech Recognition	May 27, 2022	speech-recognitionSpeech Recognition	—Unverified
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Contextual Adapters for Personalized Speech Recognition in Neural Transducers	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Clinical Dialogue Transcription Error Correction using Seq2Seq Models	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving CTC-based ASR Models with Gated Interlayer Collaboration	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Heterogeneous Reservoir Computing Models for Persian Speech Recognition	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigating Lexical Replacements for Arabic-English Code-Switched Data Augmentation	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semantic-preserved Communication System for Highly Efficient Speech Transmission	May 25, 2022	Semantic Communicationspeech-recognition	—Unverified
On Building Spoken Language Understanding Systems for Low Resourced Languages	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
An Investigation on Applying Acoustic Feature Conversion to ASR of Adult and Child Speech	May 25, 2022	AttributeAutomatic Speech Recognition	—Unverified
DPSNN: A Differentially Private Spiking Neural Network with Temporal Enhanced Pooling	May 24, 2022	Face RecognitionImage Classification	—Unverified
Adaptive multilingual speech recognition with pretrained models	May 24, 2022	speech-recognitionSpeech Recognition	—Unverified
Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition	May 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks for Lighter, Faster and Robust Models	May 23, 2022	Data AugmentationInformation Retrieval	CodeCode Available
Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust Intent Detection	May 23, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified
Self-Supervised Speech Representation Learning: A Review	May 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Set-based Meta-Interpolation for Few-Task Meta-Learning	May 20, 2022	Bilevel Optimizationimage-classification	—Unverified
NeuralEcho: A Self-Attentive Recurrent Neural Network For Unified Acoustic Echo Suppression And Speech Enhancement	May 20, 2022	Acoustic echo cancellationSpeech Enhancement	—Unverified
Predicting electrode array impedance after one month from cochlear implantation surgery	May 20, 2022	speech-recognitionSpeech Recognition	—Unverified
Automatic Spoken Language Identification using a Time-Delay Neural Network	May 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Content-Context Factorized Representations for Automated Speech Recognition	May 19, 2022	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 55 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified