Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4351–4400 of 6433 papers

Title	Date	Tasks	Status
Streaming Target-Speaker ASR with Neural Transducer	Sep 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition	Nov 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Language Identification using Combination of Acoustic Representations and ASR Hypotheses	Jun 1, 2020	Language Identificationspeech-recognition	—Unverified
Streaming Models for Joint Speech Recognition and Translation	Jan 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Multi-speaker ASR with RNN-T	Nov 23, 2020	speech-recognitionSpeech Recognition	—Unverified
Streaming Multi-talker Speech Recognition with Joint Speaker Identification	Apr 5, 2021	Speaker Identificationspeech-recognition	—Unverified
Streaming Noise Context Aware Enhancement For Automatic Speech Recognition in Multi-Talker Environments	May 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming parallel transducer beam search with fast-slow cascaded encoders	Mar 29, 2022	Low-latency processingspeech-recognition	—Unverified
Streaming Punctuation: A Novel Punctuation Technique Leveraging Bidirectional Context for Continuous Speech Recognition	Jan 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Punctuation for Long-form Dictation with Transformers	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Simultaneous Speech Translation with Augmented Memory Transformer	Oct 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Speech-to-Confusion Network Speech Recognition	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Transformer ASR with Blockwise Synchronous Inference	Jun 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger Mitigation	May 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Transformer Transducer Based Speech Recognition Using Non-Causal Convolution	Oct 7, 2021	speech-recognitionSpeech Recognition	—Unverified
Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher Guidance	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Voice Query Recognition using Causal Convolutional Recurrent Neural Networks	Dec 19, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion	Aug 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Strong Alone, Stronger Together: Synergizing Modality-Binding Foundation Models with Optimal Transport for Non-Verbal Emotion Recognition	Sep 21, 2024	Audio Deepfake DetectionDeepFake Detection	—Unverified
Structural Analysis of Hindi Phonetics and A Method for Extraction of Phonetically Rich Sentences from a Very Large Hindi Text Corpus	Jan 30, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Structured-based Curriculum Learning for End-to-end English-Japanese Speech Translation	Feb 13, 2018	DecoderMachine Translation	—Unverified
Structured Dialogue Policy with Graph Neural Networks	Aug 1, 2018	Automatic Speech Recognition (ASR)Decision Making	—Unverified
Structured Discriminative Model For Dialog State Tracking	Aug 1, 2013	Decision Makingdialog state tracking	—Unverified
Structured Penalties for Log-Linear Language Models	Oct 1, 2013	ChunkingInformation Retrieval	—Unverified
Structured Speaker-Deficiency Adaptation of Foundation Models for Dysarthric and Elderly Speech Recognition	Dec 25, 2024	Attributespeech-recognition	—Unverified
Structured State Space Decoder for Speech Recognition and Synthesis	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Structured Transforms for Small-Footprint Deep Learning	Oct 6, 2015	Deep LearningKeyword Spotting	—Unverified
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified
Student achievement and French sentence repetition test scores	May 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Student-Teacher Learning for BLSTM Mask-based Speech Enhancement	Mar 27, 2018	Speech Enhancementspeech-recognition	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Neural Network Algorithm	Sep 17, 2018	Image CompressionNovelty Detection	—Unverified
Study and Observation of the Variations of Accuracies for Handwritten Digits Recognition with Various Hidden Layers and Epochs using Convolutional Neural Network	Sep 17, 2018	Face Recognitionimage-classification	—Unverified
Studying the Effect of Audio Filters in Pre-Trained Models for Environmental Sound Classification	Aug 24, 2024	ClassificationEnvironmental Sound Classification	—Unverified
Studying the Similarity of COVID-19 Sounds based on Correlation Analysis of MFCC	Oct 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Study of Indian English Pronunciation Variabilities relative to Received Pronunciation	Apr 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Study of Semi-supervised Approaches to Improving English-Mandarin Code-Switching Speech Recognition	Jun 16, 2018	speech-recognitionSpeech Recognition	—Unverified
StutterNet: Stuttering Detection Using Time Delay Neural Network	May 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered Speech	Nov 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Style-agnostic evaluation of ASR using multiple reference transcripts	Dec 10, 2024	speech-recognitionSpeech Recognition	—Unverified
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation	Aug 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Style Variation as a Vantage Point for Code-Switching	May 1, 2020	Language ModelingLanguage Modelling	—Unverified
Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition	Jun 30, 2022	Quantizationspeech-recognition	—Unverified
Sub-8-bit quantization for on-device speech recognition: a regularization-free approach	Oct 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
分頻式調變頻譜分解於強健性語音辨識 (Sub-band modulation spectrum factorization in robust speech recognition) [In Chinese]	Oct 1, 2013	Robust Speech Recognitionspeech-recognition	—Unverified
Subject Envelope based Multitype Reconstruction Algorithm of Speech Samples of Parkinson's Disease	Aug 23, 2021	Clusteringspeech-recognition	—Unverified
Subject Enveloped Deep Sample Fuzzy Ensemble Learning Algorithm of Parkinson's Speech Data	Nov 17, 2021	DiagnosticEnsemble Learning	—Unverified
Sub-lexical Dialogue Act Classification in a Spoken Dialogue System Support for the Elderly with Cognitive Disabilities	Aug 1, 2013	Dialogue Act ClassificationGeneral Classification	—Unverified
Subword and Crossword Units for CTC Acoustic Models	Dec 19, 2017	Language ModelingLanguage Modelling	—Unverified
Subword Dictionary Learning and Segmentation Techniques for Automatic Speech Recognition in Tamil and Kannada	Jul 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified

Show:10 25 50

← PrevPage 88 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified