Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5701–5750 of 6433 papers

Title	Date	Tasks	Status
Synchronous Transformers for End-to-End Speech Recognition	Dec 6, 2019	Decoderspeech-recognition	—Unverified
Syntactic and Semantic Features For Code-Switching Factored Language Models	Oct 4, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Syntactic annotation of spontaneous speech: application to call-center conversation data	May 1, 2012	Dependency ParsingPOS	—Unverified
Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech	Nov 24, 2020	Data AugmentationSpeaker Recognition	—Unverified
SynthASR: Unlocking Synthetic Data for Speech Recognition	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Synthesising Audio Adversarial Examples for Automatic Speech Recognition	Sep 29, 2021	Audio SynthesisAutomatic Speech Recognition	—Unverified
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Synthetic Cross-accent Data Augmentation for Automatic Speech Recognition	Mar 1, 2023	Automatic Speech RecognitionData Augmentation	—Unverified
Synthetic Dataset Generation for Privacy-Preserving Machine Learning	Oct 6, 2022	Dataset Generationimage-classification	—Unverified
Synthetic Query Generation using Large Language Models for Virtual Assistants	Jun 10, 2024	Information Retrievalspeech-recognition	—Unverified
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition	Oct 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Systolic Arrays and Structured Pruning Co-design for Efficient Transformers in Edge Systems	Nov 15, 2024	Machine TranslationQuantization	—Unverified
Tackling Sequence to Sequence Mapping Problems with Neural Networks	Oct 25, 2018	Domain AdaptationFeature Engineering	—Unverified
Tackling the Cocktail Fork Problem for Separation and Transcription of Real-World Soundtracks	Dec 14, 2022	Action DetectionActivity Detection	—Unverified
Tag and correct: high precision post-editing approach to correction of speech recognition errors	Jun 11, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture	Sep 1, 2020	speech-recognitionSpeech Recognition	—Unverified
TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging, audio, and lip videos	Nov 19, 2020	speech-recognitionSpeech Recognition	—Unverified
TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline	Jun 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval	Apr 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Talking to Your TV: Context-Aware Voice Search with Hierarchical Recurrent Neural Networks	May 13, 2017	speech-recognitionSpeech Recognition	—Unverified
TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge	Jun 2, 2025	Language Identificationspeech-recognition	—Unverified
Tamil Language Computing: the Present and the Future	Jul 11, 2024	Language ModellingMachine Translation	—Unverified
Tandem Multitask Training of Speaker Diarisation and Speech Recognition for Meeting Transcription	Jul 8, 2022	Action DetectionActivity Detection	—Unverified
探究端對端混合模型架構於華語語音辨識 (An Investigation of Hybrid CTC-Attention Modeling in Mandarin Speech Recognition)	Jun 1, 2019	speech-recognitionSpeech Recognition	—Unverified
探究端對端語音辨識於發音檢測與診斷(Investigating on Computer-Assisted Pronunciation Training Leveraging End-to-End Speech Recognition Techniques)	Oct 1, 2019	speech-recognitionSpeech Recognition	—Unverified
Targeted Adversarial Examples for Black Box Audio Systems	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TASK AWARE MULTI-TASK LEARNING FOR SPEECH TO TEXT TASKS	Jun 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task-aware Warping Factors in Mask-based Speech Enhancement	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task-dependent modulation of the visual sensory thalamus assists visual-speech recognition	May 24, 2018	Face Identificationspeech-recognition	—Unverified
Task Lineages: Dialog State Tracking for Flexible Interaction	Sep 1, 2016	dialog state trackingSpeech Recognition	—Unverified
Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10	Apr 14, 2023	Automatic Speech RecognitionData Augmentation	—Unverified
Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine	Jul 17, 2025	Audio ClassificationAutomatic Speech Recognition	—Unverified
TBD: Benchmarking and Analyzing Deep Neural Network Training	Mar 16, 2018	BenchmarkingGeneral Classification	—Unverified
Teach an all-rounder with experts in different domains	Jul 9, 2019	AllAutomatic Speech Recognition	—Unverified
Team Deep Mixture of Experts for Distributed Power Control	Jul 28, 2020	Mixture-of-Expertsspeech-recognition	—Unverified
Team MTS @ AutoMin 2021: An Overview of Existing Summarization Approaches and Comparison to Unsupervised Summarization Techniques	Oct 4, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Techniques for Feature Extraction In Speech Recognition System : A Comparative Study	May 6, 2013	speech-recognitionSpeech Recognition	—Unverified
Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems	Mar 19, 2020	graph constructionspeech-recognition	—Unverified
Technology-Augmented Multilingual Communication Models: New Interaction Paradigms, Shifts in the Language Services Industry, and Implications for Training Programs	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TED-LIUM: an Automatic Speech Recognition dedicated corpus	May 1, 2012	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Temperature-Based Deep Boltzmann Machines	Aug 27, 2016	Image Reconstructionspeech-recognition	—Unverified
Temporal Attention Augmented Transformer Hawkes Process	Dec 29, 2021	speech-recognitionSpeech Recognition	—Unverified
Temporal Information Processing on Noisy Quantum Computers	Jan 26, 2020	speech-recognitionSpeech Recognition	—Unverified
Temporal Multimodal Learning in Audiovisual Speech Recognition	Jun 1, 2016	Multimodal Deep Learningspeech-recognition	—Unverified
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation	Jan 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tensor decomposition for minimization of E2E SLU model toward on-device processing	Jun 2, 2023	speech-recognitionSpeech Recognition	—Unverified
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations	May 8, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text Alignment for Real-Time Crowd Captioning	Jun 1, 2013	Speech Recognition	—Unverified

Show:10 25 50

← PrevPage 115 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified