Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5401–5450 of 6433 papers

Title	Date	Tasks	Status
Advancing the State of the Art in Open Domain Dialog Systems through the Alexa Prize	Dec 27, 2018	Knowledge GraphsManagement	—Unverified
AdVerb: Visually Guided Audio Dereverberation	Aug 23, 2023	Speaker VerificationSpeech Enhancement	—Unverified
Adversarial Attacks and Defense on Texts: A Survey	May 28, 2020	Face RecognitionObject Recognition	—Unverified
Adversarial Attacks and Defenses for Speech Recognition Systems	Mar 31, 2021	Adversarial RobustnessAutomatic Speech Recognition	—Unverified
Adversarial Attacks on ASR Systems: An Overview	Aug 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Attacks on Speech Recognition Systems for Mission-Critical Applications: A Survey	Feb 22, 2022	Adversarial AttackBIG-bench Machine Learning	—Unverified
Adversarial Black-Box Attacks on Automatic Speech Recognition Systems using Multi-Objective Evolutionary Optimization	Nov 4, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Data Augmentation for Disordered Speech Recognition	Aug 2, 2021	Data Augmentationspeech-recognition	—Unverified
Adversarial Data Augmentation Using VAE-GAN for Disordered Speech Recognition	Nov 3, 2022	Data AugmentationGenerative Adversarial Network	—Unverified
Adversarial Feature Learning and Unsupervised Clustering based Speech Synthesis for Found Data with Acoustic and Textual Noise	Apr 28, 2020	ClusteringData Augmentation	—Unverified
Adversarial Joint Training with Self-Attention Mechanism for Robust End-to-End Speech Recognition	Apr 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Machine Learning in Network Intrusion Detection Systems	Apr 23, 2020	BIG-bench Machine LearningIntrusion Detection	—Unverified
Adversarial Meta Sampling for Multilingual Low-Resource Speech Recognition	Dec 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speaker Adaptation	Apr 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion	May 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection	Jun 1, 2022	speech-recognitionSpeech Recognition	—Unverified
Adversarial synthesis based data-augmentation for code-switched spoken language identification	May 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Training for Multilingual Acoustic Modeling	Jun 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversarial Training of End-to-end Speech Recognition Using a Criticizing Language Model	Nov 2, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adversary Resistant Deep Neural Networks with an Application to Malware Detection	Oct 5, 2016	Deep LearningInformation Retrieval	—Unverified
Advocating Character Error Rate for Multilingual ASR Evaluation	Oct 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Dynamic Programming Algorithm for Computing N-gram Posteriors from Lattices	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
A Fast-Converged Acoustic Modeling for Korean Speech Recognition: A Preliminary Study on Time Delay Neural Network	Jul 11, 2018	speech-recognitionSpeech Recognition	—Unverified
Affect Recognition in Conversations Using Large Language Models	Sep 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Framework for Synthetic Audio Conversations Generation using Large Language Models	Sep 2, 2024	Audio ClassificationAudio Tagging	—Unverified
AfriNames: Most ASR models "butcher" African Names	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR	Sep 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond	Feb 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AGADIR: Towards Array-Geometry Agnostic Directional Speech Recognition	Jan 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A GEN AI Framework for Medical Note Generation	Sep 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Generalized Framework for Hierarchical Word Sequence Language Model	Oct 1, 2016	Language ModelingLanguage Modelling	—Unverified
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Generative Model of a Pronunciation Lexicon for Hindi	May 6, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Genetic Programming Approach To Zero-Shot Neural Architecture Ranking	Oct 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Agent-Aware Dropout DQN for Safe and Efficient On-line Dialogue Policy Learning	Sep 1, 2017	Automatic Speech Recognition (ASR)Dialogue Management	—Unverified
A GrAF-compliant Indonesian Speech Recognition Web Service on the Language Grid for Transcription Crowdsourcing	Jul 1, 2012	speech-recognitionSpeech Recognition	—Unverified
A Hardware-Friendly Algorithm for Scalable Training and Deployment of Dimensionality Reduction Models on FPGA	Jan 11, 2018	BIG-bench Machine LearningDimensionality Reduction	—Unverified
A Hardware-Oriented and Memory-Efficient Method for CTC Decoding	May 8, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AHD ConvNet for Speech Emotion Classification	Jun 10, 2022	ClassificationEmotion Classification	—Unverified
A hierarchical approach with feature selection for emotion recognition from speech	May 1, 2012	ClassificationDimensionality Reduction	—Unverified
A Hierarchical Neural Model for Learning Sequences of Dialogue Acts	Apr 1, 2017	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews	Dec 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A higher order Minkowski loss for improved prediction ability of acoustic model in ASR	Dec 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech Recognition	May 6, 2022	speech-recognitionSpeech Recognition	—Unverified
A Highly Efficient Distributed Deep Learning System For Automatic Speech Recognition	Jul 10, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations	Apr 4, 2025	speech-recognitionSpeech Recognition	—Unverified
A Hybrid Machine Learning Framework for Optimizing Crop Selection via Agronomic and Economic Forecasting	Jul 6, 2025	Hybrid Machine Learningspeech-recognition	—Unverified
AI and Accessibility: A Discussion of Ethical Considerations	Aug 21, 2019	speech-recognitionSpeech Recognition	—Unverified
A.I. based Embedded Speech to Text Using Deepspeech	Feb 25, 2020	Raspberry Pi 3speech-recognition	—Unverified

Show:10 25 50

← PrevPage 109 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified