Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 6433 papers

Title	Date	Tasks	Status
Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Unified Framework of Constrained Robust Submodular Optimization with Applications	Jun 14, 2019	BIG-bench Machine Learningspeech-recognition	—Unverified
A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model	Jan 5, 2024	Speech Enhancementspeech-recognition	—Unverified
A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System	Jul 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering	Sep 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Unified Transformer-based Framework for Duplex Text Normalization	Aug 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Universally-Deployable ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation	Sep 14, 2022	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
A user study to compare two conversational assistants designed for people with hearing impairments	Jun 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparative Study of Extremely Low-Resource Transliteration of the World's Languages	May 1, 2018	Machine TranslationSpeech Recognition	—Unverified
A Variational EM Method for Pole-Zero Modeling of Speech with Mixed Block Sparse and Gaussian Excitation	Jun 24, 2017	speech-recognitionSpeech Recognition	—Unverified
Auto-Landmark: Acoustic Landmark Dataset and Open-Source Toolkit for Landmark Extraction	Sep 12, 2024	Depression Detectionspeech-recognition	—Unverified
Automated Cross-language Intelligibility Analysis of Parkinson's Disease Patients Using Speech Recognition Technologies	Jul 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-attention discriminative language model for ASR rescoring	Dec 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automated Essay Scoring Based on Finite State Transducer: towards ASR Transcription of Oral English Speech	Jul 1, 2012	Automated Essay ScoringSpeech Recognition	—Unverified
Automated Preamble Detection in Dictated Medical Reports	Aug 1, 2017	Speech RecognitionWord Embeddings	—Unverified
Automated scoring across different modalities	Jun 1, 2016	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Automated scoring of speaking items in an assessment for teachers of English as a Foreign Language	Jun 1, 2014	Speech Recognition	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?	Dec 19, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Automated Speech Recognition Technology for Dialogue Interaction with Non-Native Interlocutors	Sep 1, 2015	speech-recognitionSpeech Recognition	—Unverified
Automated speech tools for helping communities process restricted-access corpora for language revival efforts	Apr 15, 2022	Action DetectionActivity Detection	—Unverified
Automated speech-unit delimitation in spoken learner English	Dec 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatically Assess Children's Reading Skills	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatically building a Tunisian Lexicon for Deverbal Nouns	Aug 1, 2014	Speech Recognition	—Unverified
Automatically Tailoring Unsupervised Morphological Segmentation to the Language	Oct 1, 2018	Machine TranslationSegmentation	—Unverified
Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic assessment of spoken language proficiency of non-native children	Mar 15, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Classification of Spoken Languages using Diverse Acoustic Features	Oct 1, 2015	ClassificationGeneral Classification	—Unverified
Audio Attacks and Defenses against AED Systems -- A Practical Study	Jun 14, 2021	Audio DenoisingDenoising	—Unverified
Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech Recognition	Aug 12, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Automatic Detection of Code-switching Style from Acoustics	Jul 1, 2018	Automatic Speech Recognition (ASR)Language Identification	—Unverified
Analyse de l'effet de la r\'everb\'eration sur la reconnaissance automatique de la parole (Analyzing how reverberation affects Automatic Speech Recognition)	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequential Multi-Frame Neural Beamforming for Speech Separation and Enhancement	Nov 18, 2019	Speaker SeparationSpeech Enhancement	—Unverified
Automatic Documentation of ICD Codes with Far-Field Speech Recognition	Apr 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic dysfluency detection in dysarthric speech using deep belief networks	Sep 1, 2015	Speech Recognition	—Unverified
Automatic Enhancement of LTAG Treebank	Sep 1, 2013	Machine TranslationSpeech Recognition	—Unverified
Automatic Estimation of Intelligibility Measure for Consonants in Speech	May 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic evaluation of spoken summaries: the case of language assessment	Jun 1, 2014	Speech Recognition	—Unverified
Automatic generation of a 3D sign language avatar on AR glasses given 2D videos of human signers	Aug 1, 2021	Machine Translationspeech-recognition	—Unverified
Automatic language identity tagging on word and sentence-level in multilingual text sources: a case-study on Luxembourgish	May 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Learning of Subword Dependent Model Scales	Oct 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Long Audio Alignment and Confidence Scoring for Conversational Arabic Speech	May 1, 2014	Language Modellingspeech-recognition	—Unverified
Audio Adversarial Examples for Robust Hybrid CTC/Attention Speech Recognition	Jul 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic pronunciation assessment for language learners with acoustic-phonetic features	Dec 1, 2012	Speech Recognition	—Unverified
Automatic Pronunciation Generation by Utilizing a Semi-supervised Deep Neural Networks	Jun 15, 2016	speech-recognitionSpeech Recognition	—Unverified
AUTOMATIC PRONUNCIATION MISTAKE DETECTOR PROJECT REPORT	Jun 25, 2025	Mistake Detectionspeech-recognition	—Unverified
Automatic Pronunciation Scoring And Mispronunciation Detection Using CMUSphinx	Dec 1, 2012	Speech Recognition	—Unverified
Automatic Quality Estimation for ASR System Combination	Jun 22, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic recognition and detection of aphasic natural speech	Aug 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition	Dec 3, 2020	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 18 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified