Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5751–5800 of 6433 papers

Title	Date	Tasks	Status
Text-based Speaker Identification on Multiparty Dialogues Using Multi-document Convolutional Neural Networks	Jul 1, 2017	Speaker IdentificationSpeech Recognition	—Unverified
Text Generation with Speech Synthesis for ASR Data Augmentation	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text Injection for Capitalization and Turn-Taking Prediction in Speech Models	Aug 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text Injection for Neural Contextual Biasing	Jun 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis	Mar 27, 2023	AllAutomatic Speech Recognition	—Unverified
Text Normalization Infrastructure that Scales to Hundreds of Language Varieties	May 1, 2018	Language IdentificationLanguage Modeling	—Unverified
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation	Sep 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer	Jun 7, 2023	Domain AdaptationLanguage Modeling	—Unverified
Text-To-Speech Data Augmentation for Low Resource Speech Recognition	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Textual Echo Cancellation	Aug 13, 2020	Acoustic echo cancellationspeech-recognition	—Unverified
Textual Inference and Meaning Representation in Human Robot Interaction	Nov 1, 2013	Abstract Meaning RepresentationNatural Language Understanding	—Unverified
Thank you for Attention: A survey on Attention-based Artificial Neural Networks for Automatic Speech Recognition	Feb 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages	May 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The 2015 Sheffield System for Transcription of Multi-Genre Broadcast Media	Dec 21, 2015	Acoustic ModellingAutomatic Speech Recognition	—Unverified
The 2019 BBN Cross-lingual Information Retrieval System	May 1, 2020	Cross-Lingual Information RetrievalInformation Retrieval	—Unverified
The acquisition and dialog act labeling of the EDECAN-SPORTS corpus	May 1, 2012	Speech Recognition	—Unverified
The AFRL IWSLT 2018 Systems: What Worked, What Didn’t	Oct 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The AFRL IWSLT 2020 Systems: Work-From-Home Edition	Jul 1, 2020	Action DetectionActivity Detection	—Unverified
The Algonauts Project: A Platform for Communication between the Sciences of Biological and Artificial Intelligence	May 14, 2019	Benchmarkingspeech-recognition	—Unverified
The Ambiguous World of Emotion Representation	Sep 1, 2019	Face RecognitionSpeaker Verification	—Unverified
TheanoLM - An Extensible Toolkit for Neural Network Language Modeling	May 3, 2016	CPUEnglish Conversational Speech Recognition	—Unverified
The Art of Deception: Robust Backdoor Attack using Dynamic Stacking of Triggers	Jan 3, 2024	Backdoor Attackspeech-recognition	—Unverified
The ASRU 2019 Mandarin-English Code-Switching Speech Recognition Challenge: Open Datasets, Tracks, Methods and Results	Jul 12, 2020	Data AugmentationLanguage Identification	—Unverified
The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions	Oct 16, 2000	speech-recognitionSpeech Recognition	—Unverified
The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese	Feb 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The CAPIO 2017 Conversational Speech Recognition System	Dec 29, 2017	image-classificationImage Classification	—Unverified
The CHiME-7 Challenge: System Description and Performance of NeMo Team's DASR System	Oct 18, 2023	Automatic Speech Recognitionspeaker-diarization	—Unverified
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios	Jun 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The CHiME-8 DASR Challenge for Generalizable and Array Agnostic Distant Automatic Speech Recognition and Diarization	Jul 23, 2024	Automatic Speech RecognitionDistant Speech Recognition	—Unverified
The coding and annotation of multimodal dialogue acts	May 1, 2012	Speech Recognition	—Unverified
The Cohort and Speechify Libraries for Rapid Construction of Speech Enabled Applications for Android	Sep 1, 2015	Action DetectionSpeech Recognition	—Unverified
The CUHK-TENCENT speaker diarization system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge	Feb 4, 2022	Action DetectionActivity Detection	—Unverified
The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design	Nov 13, 2019	BIG-bench Machine LearningNatural Language Understanding	—Unverified
The design and implementation of Language Learning Chatbot with XAI using Ontology and Transfer Learning	Sep 29, 2020	ChatbotExplainable artificial intelligence	—Unverified
Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning	Sep 21, 2016	DecoderMulti-Task Learning	CodeCode Available
Consistent Transcription and Translation of Speech	Jul 24, 2020	speech-recognitionSpeech Recognition	CodeCode Available
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
On the Choice of Modeling Unit for Sequence-to-Sequence Speech Recognition	Feb 5, 2019	DecoderLanguage Modeling	CodeCode Available
An Overview of Multi-Task Learning in Deep Neural Networks	Jun 15, 2017	BIG-bench Machine LearningDrug Discovery	CodeCode Available
Learning Waveform-Based Acoustic Models using Deep Variational Convolutional Neural Networks	Jun 23, 2019	Bayesian InferenceRobust Speech Recognition	CodeCode Available
BehancePR: A Punctuation Restoration Dataset for Livestreaming Video Transcript	Jul 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Attentional Speech Recognition Models Misbehave on Out-of-domain Utterances	Feb 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Robust Audio Adversarial Example for a Physical Attack	Oct 28, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments	Feb 21, 2022	Data AugmentationPhoneme Recognition	CodeCode Available
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning	Apr 16, 2021	CPUDeep Learning	CodeCode Available
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding	Jan 13, 2025	Automatic Speech Recognitionintent-classification	CodeCode Available
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition	Jun 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Jasper: An End-to-End Convolutional Neural Acoustic Model	Apr 5, 2019	DecoderLanguage Modeling	CodeCode Available
AI-Generated Song Detection via Lyrics Transcripts	Jun 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available

Show:10 25 50

← PrevPage 116 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified