Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5551–5600 of 6433 papers

Title	Date	Tasks	Status
An ASR-free Fluency Scoring Approach with Self-Supervised Learning	Feb 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Anatomy of Industrial Scale Multilingual ASR	Apr 15, 2024	AnatomyAutomatic Speech Recognition	—Unverified
An Attentional Model for Speech Translation Without Transcription	Jun 1, 2016	Automatic Speech Recognition (ASR)model	—Unverified
An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An automated medical scribe for documenting clinical encounters	Jun 1, 2018	speaker-diarizationSpeaker Diarization	—Unverified
Anchored Speech Recognition with Neural Transducers	Oct 20, 2022	speech-recognitionSpeech Recognition	—Unverified
An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution	Apr 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition	Sep 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective End-to-End Modeling Approach for Mispronunciation Detection	May 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Mixture-Of-Experts Approach For Code-Switching Speech Recognition Leveraging Encoder Disentanglement	Feb 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective, Performant Named Entity Recognition System for Noisy Business Telephone Conversation Transcripts	Sep 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Training Framework for Light-Weight Automatic Speech Recognition Models	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Efficient and Effective Online Sentence Segmenter for Simultaneous Interpretation	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
An efficient and perceptually motivated auditory neural encoding and decoding algorithm for spiking neural networks	Sep 3, 2019	Benchmarkingspeech-recognition	—Unverified
An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems	Sep 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An efficient text augmentation approach for contextualized Mandarin speech recognition	Jun 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Empirical Analysis of Deep Audio-Visual Models for Speech Recognition	Dec 21, 2018	Lip ReadingSensitivity	—Unverified
An empirical assessment of deep learning approaches to task-oriented dialog management	Aug 7, 2021	Managementspeech-recognition	—Unverified
An Empirical Study of Automatic Chinese Word Segmentation for Spoken Language Understanding and Named Entity Recognition	Jun 1, 2016	Automatic Speech Recognition (ASR)Chinese Word Segmentation	—Unverified
An Empirical Study of Efficient ASR Rescoring with Transformers	Oct 24, 2019	Knowledge DistillationLanguage Modeling	—Unverified
An Empirical Study of Language Model Integration for Transducer based Speech Recognition	Mar 31, 2022	Language ModelingLanguage Modelling	—Unverified
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified
An End-to-End Mispronunciation Detection System for L2 English Speech Leveraging Novel Anti-Phone Modeling	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An End-to-End Speech Recognition for the Nepali Language	Dec 1, 2021	DecoderLanguage Modeling	—Unverified
An End-to-End Text-independent Speaker Verification Framework with a Keyword Adversarial Network	Aug 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An enhanced automatic speech recognition system for Arabic	Apr 1, 2017	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified
An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling to Differential Privacy Preserving Speech Recognition	Oct 12, 2022	Ensemble LearningPrivacy Preserving	—Unverified
A network of deep neural networks for distant speech recognition	Mar 23, 2017	Distant Speech RecognitionSpeech Enhancement	—Unverified
A Neural Acoustic Echo Canceller Optimized Using An Automatic Speech Recognizer And Large Scale Synthetic Data	Jun 1, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
A neural document language modeling framework for spoken document retrieval	Oct 31, 2019	Information RetrievalLanguage Modeling	—Unverified
A Neural Morphological Analyzer for Arapaho Verbs Learned from a Finite State Transducer	Aug 1, 2018	DecoderMachine Translation	—Unverified
An evaluation of word-level confidence estimation for end-to-end automatic speech recognition	Jan 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain	Mar 7, 2024	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified
A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning	May 19, 2023	Multi-Task Learningspeech-recognition	—Unverified
A New Form of Humor --- Mapping Constraint-Based Computational Morphologies to a Finite-State Representation	May 1, 2014	FormMorphological Analysis	—Unverified
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR	Mar 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An experimental analysis of Noise-Contrastive Estimation: the noise distribution matters	Apr 1, 2017	Language ModelingLanguage Modelling	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech Recognition	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Experiment on Speech-to-Text Translation Systems for Manipuri to English on Low Resource Setting	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Explainable Adversarial Robustness Metric for Deep Learning Neural Networks	Jun 5, 2018	Adversarial AttackAdversarial Robustness	—Unverified
An explicit statistical model of learning lexical segmentation using multiple cues	Apr 1, 2014	Language AcquisitionSpeech Recognition	—Unverified
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition	Oct 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Extension of the Slovak Broadcast News Corpus based on Semi-Automatic Annotation	May 1, 2016	speech-recognitionSpeech Recognition	—Unverified
Animal inspired Application of a Variant of Mel Spectrogram for Seismic Data Processing	Sep 22, 2021	speech-recognitionSpeech Recognition	—Unverified
An Improved Hierarchical Word Sequence Language Model Using Directional Information	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
An Improved Residual LSTM Architecture for Acoustic Modeling	Aug 17, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Improved Single Step Non-autoregressive Transformer for Automatic Speech Recognition	Jun 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An inclusive review on deep learning techniques and their scope in handwriting recognition	Apr 10, 2024	Deep LearningHandwriting Recognition	—Unverified

Show:10 25 50

← PrevPage 112 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified