Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3100 of 6433 papers

Title	Date	Tasks	Status
Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving the Robustness of Speech Translation	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving the Training Recipe for a Robust Conformer-based Hybrid Model	Jun 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer	Jan 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition	Jan 1, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Enhancing Aviation Communication Transcription: Fine-Tuning Distil-Whisper with LoRA	Mar 13, 2025	Automatic Speech Recognitionparameter-efficient fine-tuning	—Unverified
Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization	Dec 26, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Improving Uyghur ASR systems with decoders using morpheme-based language models	Mar 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages	Jun 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An online sequence-to-sequence model for noisy speech recognition	Jun 16, 2017	Noisy Speech Recognitionspeech-recognition	—Unverified
Enhancing ASR for Stuttered Speech with Limited Data Using Detect and Pass	Feb 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text	Aug 10, 2024	Automatic Speech RecognitionHallucination	—Unverified
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores	Jun 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO	Nov 1, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
IMS-Speech: A Speech to Text Tool	Aug 13, 2019	speech-recognitionSpeech Recognition	—Unverified
IMS' Systems for the IWSLT 2021 Low-Resource Speech Translation Task	Jun 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
IMS’ Systems for the IWSLT 2021 Low-Resource Speech Translation Task	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition	Feb 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation	Jun 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Inclusivity of AI Speech in Healthcare: A Decade Look Back	May 15, 2025	speech-recognitionSpeech Recognition	—Unverified
In-context Language Learning for Endangered Languages in Speech Recognition	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties	May 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating End-to-End Speech Recognition Models for Sentiment Analysis	Feb 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancements in statistical spoken language translation by de-normalization of ASR results	Nov 18, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition	Jun 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Language Level Information into Acoustic Models	Dec 14, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Side Information into Recurrent Neural Network Language Models	Jun 1, 2016	Image CaptioningLanguage Modelling	—Unverified
Enhancement of Dysarthric Speech Reconstruction by Contrastive Learning	Oct 5, 2024	Contrastive Learningspeech-recognition	—Unverified
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement	Sep 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes Mix	May 1, 2018	Speech Recognition	—Unverified
Increasing the Interpretability of Recurrent Neural Networks Using Hidden Markov Models	Jun 16, 2016	speech-recognitionSpeech Recognition	—Unverified
Increasing the Interpretability of Recurrent Neural Networks Using Hidden Markov Models	Nov 18, 2016	speech-recognitionSpeech Recognition	—Unverified
Incremental Adaptation Strategies for Neural Network Language Models	Dec 20, 2014	Language ModelingLanguage Modelling	—Unverified
Incremental Derivations in CCG	Sep 1, 2012	Machine TranslationSpeech Recognition	—Unverified
Incremental Dialogue Management: Survey, Discussion, and Implications for HRI	Jan 1, 2025	Dialogue ManagementManagement	—Unverified
Incremental Layer-wise Self-Supervised Learning for Efficient Speech Domain Adaptation On Device	Oct 1, 2021	Domain AdaptationSelf-Supervised Learning	—Unverified
Incremental Learning for End-to-End Automatic Speech Recognition	May 11, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incremental LSTM-based Dialog State Tracker	Jul 13, 2015	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incremental Machine Speech Chain Towards Enabling Listening while Speaking in Real-time	Nov 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incremental Neo-Davidsonian semantic construction for TAG	Sep 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
RNN based Incremental Online Spoken Language Understanding	Oct 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Incremental Predictive Parsing with TurboParser	Jun 1, 2014	Dependency ParsingSpeech Recognition	—Unverified
BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification	Jan 7, 2021	Sentiment AnalysisSentiment Classification	—Unverified
Incremental Tree Substitution Grammar for Parsing and Sentence Prediction	Jan 1, 2013	Language ModelingLanguage Modelling	—Unverified
Critical Appraisal of Artificial Intelligence-Mediated Communication	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Independent language modeling architecture for end-to-end ASR	Nov 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advanced Framework for Animal Sound Classification With Features Optimization	Jul 3, 2024	ClassificationDiversity	—Unverified
Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods	Sep 28, 2024	ClusteringSpeech Enhancement	—Unverified

Show:10 25 50

← PrevPage 62 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified