Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6201–6250 of 6433 papers

Title	Date	Tasks	Status
Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices	Jun 22, 2025	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Realizing Petabyte Scale Acoustic Modeling	Apr 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SpokeN-100: A Cross-Lingual Benchmarking Dataset for The Classification of Spoken Numbers in Different Languages	Mar 14, 2024	BenchmarkingDimensionality Reduction	CodeCode Available
Long short-term memory and learning-to-learn in networks of spiking neurons	Mar 26, 2018	Reinforcement LearningSequential Image Classification	CodeCode Available
Sequence Labeling Approach to the Task of Sentence Boundary Detection	Jan 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition	Feb 5, 2014	Handwriting RecognitionLanguage Modeling	CodeCode Available
End-to-End Speech Recognition From the Raw Waveform	Jun 19, 2018	speech-recognitionSpeech Recognition	CodeCode Available
Spoken English Intelligibility Remediation with PocketSphinx Alignment and Feature Extraction Improves Substantially over the State of the Art	Sep 6, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Long-term Conversation Analysis: Exploring Utility and Privacy	Jun 28, 2023	Action DetectionActivity Detection	CodeCode Available
Real-time low-resource phoneme recognition on edge devices	Mar 25, 2021	Phoneme Recognitionspeech-recognition	CodeCode Available
Discrete Speech Unit Extraction via Independent Component Analysis	Jan 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
TF-LM: TensorFlow-based Language Modeling Toolkit	May 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Thai Wav2Vec2.0 with CommonVoice V8	Aug 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Sequence Modeling via Segmentations	Feb 24, 2017	Segmentationspeech-recognition	CodeCode Available
Generative Adversarial Training Data Adaptation for Very Low-resource Automatic Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Spoken Language Intent Detection using Confusion2Vec	Apr 7, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Transfer Learning for Speech Recognition on a Budget	Jun 1, 2017	GPUspeech-recognition	CodeCode Available
OkwuGbé: End-to-End Speech Recognition for Fon and Igbo	Mar 13, 2021	Machine Translationspeech-recognition	CodeCode Available
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation	Oct 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
OLISIA: a Cascade System for Spoken Dialogue State Tracking	Apr 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
End-to-End Speech Recognition and Disfluency Removal with Acoustic Language Model Pretraining	Sep 8, 2023	Language ModelingLanguage Modelling	CodeCode Available
Low Frequency Adversarial Perturbation	Sep 24, 2018	DenoisingSpeech Recognition	CodeCode Available
Chemception: A Deep Neural Network with Minimal Chemistry Knowledge Matches the Performance of Expert-developed QSAR/QSPR Models	Jun 20, 2017	Computational chemistryDeep Learning	CodeCode Available
Low-Latency Sequence-to-Sequence Speech Recognition and Translation by Partial Hypothesis Selection	May 22, 2020	DecoderSequence-To-Sequence Speech Recognition	CodeCode Available
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
WPD++: An Improved Neural Beamformer for Simultaneous Speech Separation and Dereverberation	Nov 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
THCHS-30 : A Free Chinese Speech Corpus	Dec 7, 2015	speech-recognitionSpeech Recognition	CodeCode Available
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution	Nov 3, 2021	Action Recognitionspeech-recognition	CodeCode Available
Sequence-to-Sequence Models Can Directly Translate Foreign Speech	Mar 24, 2017	DecoderMachine Translation	CodeCode Available
ChatGPT in the context of precision agriculture data analytics	Nov 10, 2023	Language Modellingspeech-recognition	CodeCode Available
SQ-Whisper: Speaker-Querying based Whisper Model for Target-Speaker ASR	Dec 7, 2024	Automatic Speech RecognitionData Augmentation	CodeCode Available
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition	Sep 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors	Nov 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
On-Device Neural Language Model Based Word Prediction	Aug 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
Sequence Transduction with Recurrent Neural Networks	Nov 14, 2012	Machine TranslationPhoneme Recognition	CodeCode Available
Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language	May 20, 2025	Multi-Task LearningSign Language Recognition	CodeCode Available
SSR7000: A Synchronized Corpus of Ultrasound Tongue Imaging for End-to-End Silent Speech Recognition	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LRS3-TED: a large-scale dataset for visual speech recognition	Sep 3, 2018	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available
Unpaired Speech Enhancement by Acoustic and Adversarial Supervision for Speech Recognition	Nov 6, 2018	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available
Character-Level Neural Translation for Multilingual Media Monitoring in the SUMMA Project	Apr 5, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Sequential Randomized Smoothing for Adversarially Robust Speech Recognition	Nov 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Sequential Routing Framework: Fully Capsule Network-based Speech Recognition	Jul 23, 2020	speech-recognitionSpeech Recognition	CodeCode Available
LSTM: A Search Space Odyssey	Mar 13, 2015	CPUHandwriting Recognition	CodeCode Available
LSTM Benchmarks for Deep Learning Frameworks	Jun 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain	Feb 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition	Dec 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available

Show:10 25 50

← PrevPage 125 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified