Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–2975 of 6433 papers

Title	Date	Tasks	Status
Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models	Dec 5, 2022	Language ModelingLanguage Modelling	—Unverified
Improving Deep Learning through Automatic Programming	Jul 8, 2018	BIG-bench Machine LearningDeep Learning	—Unverified
Improving Distinction between ASR Errors and Speech Disfluencies with Feature Space Interpolation	Aug 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions	Jul 25, 2024	Automatic Speech RecognitionDecoder	—Unverified
Improving Dysarthric Speech Intelligibility Using Cycle-consistent Adversarial Training	Jan 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving EEG based Continuous Speech Recognition	Nov 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast and Accurate Capitalization and Punctuation for Automatic Speech Recognition Using Transformer and Chunk Merging	Aug 7, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Efficiency in Large-Scale Decentralized Distributed Training	Feb 4, 2020	speech-recognitionSpeech Recognition	—Unverified
Character-aware audio-visual subtitling in context	Oct 14, 2024	Language ModellingLarge Language Model	—Unverified
Adversarial Joint Training with Self-Attention Mechanism for Robust End-to-End Speech Recognition	Apr 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving End-to-End Memory Networks with Unified Weight Tying	Dec 1, 2017	Image ClassificationSpeech Recognition	—Unverified
Improving End-to-End Models for Set Prediction in Spoken Language Understanding	Jan 28, 2022	Data AugmentationDecoder	—Unverified
Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis	Oct 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving End-to-end Speech Recognition with Pronunciation-assisted Sub-word Modeling	Nov 10, 2018	Automatic Speech Recognition (ASR)speech-recognition	—Unverified
Improving End-to-End Speech Recognition with Policy Learning	Dec 19, 2017	speech-recognitionSpeech Recognition	—Unverified
Improving End-to-End Speech-to-Intent Classification with Reptile	Aug 5, 2020	ClassificationGeneral Classification	—Unverified
A Corpus of Read and Spontaneous Upper Saxon German Speech for ASR Evaluation	May 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Fast-slow Encoder based Transducer with Streaming Deliberation	Dec 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Accented Speech Recognition: Benchmarking, Pre-training, and Diverse Data	May 16, 2022	Accented Speech RecognitionBenchmarking	—Unverified
Improving Generalization of Deep Neural Network Acoustic Models with Length Perturbation and N-best Based Label Smoothing	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fashioning Local Designs from Generic Speech Technologies in an Australian Aboriginal Community	Oct 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings	Jul 31, 2023	Grapheme-to-Phoneme Conversionspeech-recognition	—Unverified
Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Hypernasality Estimation with Automatic Speech Recognition in Cleft Palate Speech	Aug 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Character-Aware Attention-Based End-to-End Speech Recognition	Jan 6, 2020	Decoderspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 119 of 258Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified