Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3926–3950 of 6433 papers

Title	Date	Tasks	Status
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Transition-based Dependency Parsing and Disfluency Detection for Automatic Speech Recognition Texts	Nov 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint unsupervised and supervised learning for context-aware language identification	Mar 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Unsupervised and Supervised Training for Multilingual ASR	Nov 15, 2021	Language ModelingLanguage Modelling	—Unverified
Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization	Jan 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control	Jun 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Word Segmentation and Phonetic Category Induction	Aug 1, 2016	Language AcquisitionSpeech Recognition	—Unverified
k2SSL: A Faster and Better Framework for Self-Supervised Speech Representation Learning	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands	Jul 6, 2022	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition	Jun 14, 2021	speech-recognitionSpeech Recognition	—Unverified
Kaldi+PDNN: Building DNN-based ASR Systems with Kaldi and PDNN	Jan 27, 2014	speech-recognitionSpeech Recognition	—Unverified
Balanced End-to-End Monolingual pre-training for Low-Resourced Indic Languages Code-Switching Speech Recognition	Jun 10, 2021	Language Modellingspeech-recognition	—Unverified
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers	Jan 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Kernel Approximation Methods for Speech Recognition	Jan 13, 2017	feature selectionspeech-recognition	—Unverified
Key Event Detection in Video using ASR and Visual Data	Aug 1, 2014	Event DetectionFace Alignment	—Unverified
Keynote: Graph-based Approaches for Spoken Language Understanding	Sep 1, 2015	Knowledge GraphsQuestion Answering	—Unverified
Keynote: Small Neural Nets Are Beautiful: Enabling Embedded Systems with Small Deep-Neural-Network Architectures	Oct 7, 2017	speech-recognitionSpeech Recognition	—Unverified
Keyphrase Prediction from Video Transcripts: New Dataset and Directions	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking	Sep 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword-Guided Adaptation of Automatic Speech Recognition	Jun 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword spotting -- Detecting commands in speech using deep learning	Dec 9, 2023	Deep LearningFeature Engineering	—Unverified
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods	Aug 23, 2023	Robust Speech Recognitionspeech-recognition	—Unverified
Kite: Automatic speech recognition for unmanned aerial vehicles	Jul 2, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KIT Lecture Translator: Multilingual Speech Translation with One-Shot Learning	Aug 1, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified

Show:10 25 50

← PrevPage 158 of 258Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified