Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2851–2900 of 6433 papers

Title	Date	Tasks	Status
Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form Multi-talker Recordings	Jan 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding	Apr 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hystoc: Obtaining word confidences for fusion of end-to-end ASR systems	May 21, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Content-Aware Speaker Embeddings for Speaker Diarisation	Feb 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap	Oct 22, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words	Aug 15, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR	Nov 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge	Jan 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Identifying depression-related topics in smartphone-collected free-response speech recordings using an automatic speech recognition system and a deep learning topic model	Aug 22, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Identifying dialects with textual and acoustic cues	Apr 1, 2017	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
Identifying Implementation Bugs in Machine Learning based Image Classifiers using Metamorphic Testing	Aug 16, 2018	BIG-bench Machine Learningspeech-recognition	—Unverified
Identifying Introductions in Podcast Episodes from Automatically Generated Transcripts	Oct 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition Model	Mar 13, 2023	Decision MakingScene Text Recognition	—Unverified
Identifying Teacher Questions Using Automatic Speech Recognition in Classrooms	Sep 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
IE-CPS Lexicon: An Automatic Speech Recognition Oriented Indian-English Pronunciation Dictionary	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ILASR: Privacy-Preserving Incremental Learning for Automatic Speech Recognition at Production Scale	Jul 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Impact du degr\'e de supervision sur l'adaptation \`a un domaine d'un mod\`ele de langage \`a partir du Web (Impact of the level of supervision on Web-based language model domain adaptation) [in French]	Jun 1, 2012	Domain AdaptationLanguage Modelling	—Unverified
Impact of ASR N-Best Information on Bayesian Dialogue Act Recognition	Aug 1, 2013	Active LearningSlot Filling	—Unverified
Impact of ASR on Alzheimer's Disease Detection: All Errors are Equal, but Deletions are More Equal than Others	Apr 2, 2019	AllAlzheimer's Disease Detection	—Unverified
An Oral History Annotation Tool for INTER-VIEWs	May 1, 2012	RetrievalSpeech Recognition	—Unverified
Impact of Data Normalization on Deep Neural Network for Time Series Forecasting	Dec 13, 2018	image-classificationImage Classification	—Unverified
Impact of Dataset on Acoustic Models for Automatic Speech Recognition	Mar 25, 2022	Acoustic ModellingAutomatic Speech Recognition	—Unverified
Impact of Experiencing Misrecognition by Teachable Agents on Learning and Rapport	Jun 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English	May 20, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Impact of Microphone position Measurement Error on Multi Channel Distant Speech Recognition & Intelligibility	Dec 1, 2021	Distant Speech RecognitionPosition	—Unverified
Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition	Jun 16, 2024	Automatic Speech RecognitionData Poisoning	—Unverified
Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI	Jan 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Implementation Of Back-Propagation Neural Network For Isolated Bangla Speech Recognition	Aug 17, 2013	speech-recognitionSpeech Recognition	—Unverified
Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For Gesture And Speech Recognition	Jul 23, 2022	Gesture RecognitionHand Gesture Recognition	—Unverified
Implicit Distortion and Fertility Models for Attention-based Encoder-Decoder NMT Model	Jan 13, 2016	AttributeDecoder	—Unverified
Implicitly Intersecting Weighted Automata using Dual Decomposition	Jun 1, 2012	Combinatorial OptimizationLanguage Modelling	—Unverified
Importance of Different Temporal Modulations of Speech: A Tale of Two Perspectives	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Importance of Smoothness Induced by Optimizers in FL4ASR: Towards Understanding Federated Learning for End-to-End ASR	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm	Sep 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Study into Pre-training Strategies for Spoken Language Understanding on Dysarthric Speech	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Improved Arabic Dialect Classification with Social Media Data	Sep 1, 2015	ClassificationGeneral Classification	—Unverified
Improved ASR for Under-Resourced Languages Through Multi-Task Learning with Acoustic Landmarks	May 15, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities	Oct 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Conformer-based End-to-End Speech Recognition Using Neural Architecture Search	Apr 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing	May 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs	Sep 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved disentangled speech representations using contrastive learning in factorized hierarchical variational autoencoder	Nov 15, 2022	Contrastive LearningDisentanglement	—Unverified
Improved far-field speech recognition using Joint Variational Autoencoder	Apr 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
改良式統計圖等化法強鍵性語音辨識之研究 (Improved Histogram Equalization Methods for Robust Speech Recognition) [In Chinese]	Sep 1, 2012	Robust Speech Recognitionspeech-recognition	—Unverified
Improved Language Identification Through Cross-Lingual Self-Supervised Learning	Jul 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers	Dec 18, 2023	Formspeech-recognition	—Unverified
Enhancing Documentation of Hupa with Automatic Speech Recognition	May 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 58 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified