Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6301–6350 of 6433 papers

Title	Date	Tasks	Status
On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR	Apr 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Massively Multilingual Neural Grapheme-to-Phoneme Conversion	Aug 4, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems	Apr 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition	Sep 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
BERT Attends the Conversation: Improving Low-Resource Conversational ASR	Oct 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
From Gameplay to Symbolic Reasoning: Learning SAT Solver Heuristics in the Style of Alpha(Go) Zero	Feb 14, 2018	Decision MakingDeep Reinforcement Learning	CodeCode Available
On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering	Sep 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
FlowSense: Monitoring Airflow in Building Ventilation Systems Using Audio Sensing	Feb 22, 2022	Privacy Preservingspeech-recognition	CodeCode Available
Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study	Jan 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Regularizing Neural Networks by Penalizing Confident Output Distributions	Jan 23, 2017	General Classificationimage-classification	CodeCode Available
Rehearsal-Free Online Continual Learning for Automatic Speech Recognition	Jun 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence	Apr 10, 2023	Benchmarkingspeech-recognition	CodeCode Available
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Stochastic Attention Head Removal: A simple and effective method for improving Transformer Based ASR Models	Nov 8, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Bandwidth Embeddings for Mixed-bandwidth Speech Recognition	Sep 5, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Direct Segmentation Models for Streaming Speech Translation	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Audio-Linguistic Embeddings for Spoken Sentences	Feb 20, 2019	DecoderEmotion Recognition	CodeCode Available
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition	Sep 23, 2021	Cross-Lingual TransferPhoneme Recognition	CodeCode Available
Measuring the Accuracy of Automatic Speech Recognition Solutions	Aug 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Measuring the Contribution of Multiple Model Representations in Detecting Adversarial Instances	Nov 13, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks	Feb 19, 2025	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Analysis of EEG frequency bands for Envisioned Speech Recognition	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Strategies for Training Large Vocabulary Neural Language Models	Dec 15, 2015	Machine Translationspeech-recognition	CodeCode Available
Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases	May 13, 2024	Audio ClassificationDiagnostic	CodeCode Available
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available
Transformers: State-of-the-Art Natural Language Processing	Oct 1, 2020	Image ClassificationObject Recognition	CodeCode Available
Audio Adversarial Examples: Targeted Attacks on Speech-to-Text	Jan 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
On the Use of External Data for Spoken Named Entity Recognition	Dec 14, 2021	Knowledge Distillationnamed-entity-recognition	CodeCode Available
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization	Nov 15, 2024	DeepFake DetectionFace Swapping	CodeCode Available
A Survey on Bayesian Deep Learning	Apr 6, 2016	Deep LearningObject Recognition	CodeCode Available
Attentively Embracing Noise for Robust Latent Representation in BERT	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs	Aug 12, 2014	Language ModelingLanguage Modelling	CodeCode Available
Differentiable Allophone Graphs for Language-Universal Speech Recognition	Jul 24, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Did you hear that? Adversarial Examples Against Automatic Speech Recognition	Jan 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Towards Better Domain Adaptation for Self-supervised Models: A Case Study of Child ASR	Apr 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
An Adversarial Approach for Explaining the Predictions of Deep Neural Networks	May 20, 2020	Adversarial AttackBIG-bench Machine Learning	CodeCode Available
A Probabilistic Theory of Deep Learning	Apr 2, 2015	Deep LearningObject	CodeCode Available
First Automatic Fongbe Continuous Speech Recognition System: Development of Acoustic Models and Language Models	Jan 21, 2017	Language ModelingLanguage Modelling	CodeCode Available
End to End ASR System with Automatic Punctuation Insertion	Dec 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors	Oct 25, 2023	en-US domain classificationen-US Intent Classification	CodeCode Available
Finnish Parliament ASR corpus - Analysis, benchmarks and statistics	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Streaming End-to-end Speech Recognition For Mobile Devices	Nov 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available
The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification	Nov 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Comparison of Adaptation Techniques and Recurrent Neural Network Architectures	Jul 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Creating Speech-to-Speech Corpus from Dubbed Series	Mar 7, 2022	Machine Translationspeech-recognition	CodeCode Available
Fine-tuning Strategies for Faster Inference using Speech Self-Supervised Models: A Comparative Study	Mar 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems	Mar 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Coupled Training of Sequence-to-Sequence Models for Accented Speech Recognition	May 14, 2020	Accented Speech RecognitionAutomatic Speech Recognition	CodeCode Available
Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition	Jan 10, 2017	Distant Speech Recognitionspeech-recognition	CodeCode Available

Show:10 25 50

← PrevPage 127 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified