Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 6433 papers

Title	Date	Tasks	Status
Zero-shot Speech Translation	Jul 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero Shot Text to Speech Augmentation for Automatic Speech Recognition on Low-Resource Accented Speech Corpora	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zipformer: A faster and better encoder for automatic speech recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities	May 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Joint CTC/attention decoding for end-to-end speech recognition	Jul 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Encoder-Decoder Self-Supervised Pre-training for ASR	Jun 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint, Incremental Disfluency Detection and Utterance Segmentation from Speech	Apr 1, 2017	Speech Recognition	—Unverified
Joint Incremental Disfluency Detection and Dependency Parsing	Jan 1, 2014	Dependency ParsingSpeech Recognition	—Unverified
Joint Language and Translation Modeling with Recurrent Neural Networks	Oct 1, 2013	Language ModellingMachine Translation	—Unverified
Joint Learning from Labeled and Unlabeled Data for Information Retrieval	Aug 1, 2018	Information RetrievalRepresentation Learning	—Unverified
Joint Learning of Correlated Sequence Labelling Tasks Using Bidirectional Recurrent Neural Networks	Mar 14, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Learning of Dialog Act Segmentation and Recognition in Spoken Dialog Using Neural Networks	Nov 1, 2017	Automatic Speech Recognition (ASR)Natural Language Understanding	—Unverified
Joint Learning of Interactive Spoken Content Retrieval and Trainable User Simulator	Apr 1, 2018	Information RetrievalQ-Learning	—Unverified
Joint Learning of Phonetic Units and Word Pronunciations for ASR	Oct 1, 2013	Language ModellingSpeech Recognition	—Unverified
Jointly Trained Transformers models for Spoken Language Translation	Apr 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Modeling of Accents and Acoustics for Multi-Accent Speech Recognition	Feb 7, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization	Nov 29, 2021	speech-recognitionSpeech Recognition	—Unverified
Joint On-line Learning of a Zero-shot Spoken Semantic Parser and a Reinforcement Learning Dialogue Manager	Oct 1, 2018	Dialogue ManagementManagement	—Unverified
Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation	May 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Part-of-Speech and Language ID Tagging for Code-Switched Data	Jul 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
Joint Satisfaction of Syntactic and Pragmatic Constraints Improves Incremental Spoken Language Understanding	Apr 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers	Jun 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified
Joint Speech Recognition and Speaker Diarization via Sequence Transduction	Jul 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Transition-based Dependency Parsing and Disfluency Detection for Automatic Speech Recognition Texts	Nov 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint unsupervised and supervised learning for context-aware language identification	Mar 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Unsupervised and Supervised Training for Multilingual ASR	Nov 15, 2021	Language ModelingLanguage Modelling	—Unverified
Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization	Jan 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control	Jun 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Joint Word Segmentation and Phonetic Category Induction	Aug 1, 2016	Language AcquisitionSpeech Recognition	—Unverified
k2SSL: A Faster and Better Framework for Self-Supervised Speech Representation Learning	Nov 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands	Jul 6, 2022	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition	Jun 14, 2021	speech-recognitionSpeech Recognition	—Unverified
Kaldi+PDNN: Building DNN-based ASR Systems with Kaldi and PDNN	Jan 27, 2014	speech-recognitionSpeech Recognition	—Unverified
Balanced End-to-End Monolingual pre-training for Low-Resourced Indic Languages Code-Switching Speech Recognition	Jun 10, 2021	Language Modellingspeech-recognition	—Unverified
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers	Jan 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Kernel Approximation Methods for Speech Recognition	Jan 13, 2017	feature selectionspeech-recognition	—Unverified
Key Event Detection in Video using ASR and Visual Data	Aug 1, 2014	Event DetectionFace Alignment	—Unverified
Keynote: Graph-based Approaches for Spoken Language Understanding	Sep 1, 2015	Knowledge GraphsQuestion Answering	—Unverified
Keynote: Small Neural Nets Are Beautiful: Enabling Embedded Systems with Small Deep-Neural-Network Architectures	Oct 7, 2017	speech-recognitionSpeech Recognition	—Unverified
Keyphrase Prediction from Video Transcripts: New Dataset and Directions	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking	Sep 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword-Guided Adaptation of Automatic Speech Recognition	Jun 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Keyword spotting -- Detecting commands in speech using deep learning	Dec 9, 2023	Deep LearningFeature Engineering	—Unverified
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods	Aug 23, 2023	Robust Speech Recognitionspeech-recognition	—Unverified
Kite: Automatic speech recognition for unmanned aerial vehicles	Jul 2, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
KIT Lecture Translator: Multilingual Speech Translation with One-Shot Learning	Aug 1, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified

Show:10 25 50

← PrevPage 79 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified