Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6151–6200 of 6433 papers

Title	Date	Tasks	Status
Speech Translation Refinement using Large Language Models	Jan 25, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Tools and resources for Romanian text-to-speech and speech-to-text applications	Feb 15, 2018	speech-recognitionSpeech Recognition	CodeCode Available
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training	Oct 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition	Jun 20, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation	May 15, 2024	speech-recognitionSpeech Recognition	CodeCode Available
End-to-end Spoken Language Understanding with Tree-constrained Pointer Generator	Oct 29, 2022	intent-classificationIntent Classification	CodeCode Available
Harnessing GANs for Zero-shot Learning of New Classes in Visual Speech Recognition	Jan 29, 2019	speech-recognitionSpeech Recognition	CodeCode Available
A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech Recognition	Jul 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Quaternion Recurrent Neural Networks	Jun 12, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
End-to-End Speech Recognition With Joint Dereverberation Of Sub-Band Autoregressive Envelopes	Aug 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers	Oct 5, 2023	DecoderLogical Reasoning	CodeCode Available
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Harnessing Evolution of Multi-Turn Conversations for Effective Answer Retrieval	Dec 22, 2019	Retrievalspeech-recognition	CodeCode Available
Word-level Embeddings for Cross-Task Transfer Learning in Speech Processing	Oct 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Hardware Synthesis of State-Space Equations; Application to FPGA Implementation of Shallow and Deep Neural Networks	May 15, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation	Apr 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR	May 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech Wikimedia: A 77 Language Multilingual Speech Dataset	Aug 30, 2023	Machine Translationspeech-recognition	CodeCode Available
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition	Jan 3, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
Distributed Learning of Deep Neural Networks using Independent Subnet Training	Oct 4, 2019	BIG-bench Machine LearningImage Classification	CodeCode Available
Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data	Sep 25, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Improving Non-Intrusive Load Disaggregation through an Attention-Based Deep Neural Network	Nov 15, 2019	DecoderDenoising	CodeCode Available
A Comparative Study on Transformer vs RNN in Speech Applications	Sep 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Whispered-to-voiced Alaryngeal Speech Conversion with Generative Adversarial Networks	Aug 31, 2018	Speech EnhancementSpeech Recognition	CodeCode Available
Textless Dependency Parsing by Labeled Sequence Prediction	Jul 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
WiSeBE: Window-based Sentence Boundary Evaluation	Aug 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech	Jun 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
RadioTalk: a large-scale corpus of talk radio transcripts	Jul 16, 2019	Descriptivespeech-recognition	CodeCode Available
Random Directional Attack for Fooling Deep Neural Networks	Aug 6, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information	Jul 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Rank-1 Constrained Multichannel Wiener Filter for Speech Recognition in Noisy Environments	Jul 1, 2017	speech-recognitionSpeech Recognition	CodeCode Available
Greek2MathTex: A Greek Speech-to-Text Framework for LaTeX Equations Generation	Dec 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition	Aug 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SPGISpeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition	Apr 5, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Graph Neural Networks for Contextual ASR with the Tree-Constrained Pointer Generator	May 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model	Mar 12, 2019	Data Augmentationspeech-recognition	CodeCode Available
LMEC: Learnable Multiplicative Absolute Position Embedding Based Conformer for Speech Recognition	Dec 5, 2022	Positionspeech-recognition	CodeCode Available
Assessing the Use of Prosody in Constituency Parsing of Imperfect Transcripts	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM	May 24, 2023	Language ModellingQuestion Answering	CodeCode Available
Analyzing Phonetic and Graphemic Representations in End-to-End Automatic Speech Recognition	Jul 9, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Data Quality Measures and Efficient Evaluation Algorithms for Large-Scale High-Dimensional Data	Jan 5, 2021	BIG-bench Machine Learningspeech-recognition	CodeCode Available
BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization	Nov 16, 2024	Machine Translationspeech-recognition	CodeCode Available
Adaptive Natural Language Generation for Task-oriented Dialogue via Reinforcement Learning	Sep 16, 2022	Natural Language Understandingreinforcement-learning	CodeCode Available
RDMM: Fine-Tuned LLM Models for On-Device Robotic Decision Making with Enhanced Contextual Awareness in Specific Domains	Jan 28, 2025	Decision Makingspeech-recognition	CodeCode Available
CHSER: A Dataset and Case Study on Generative Speech Error Correction for Child ASR	May 24, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises	Feb 14, 2023	Data AugmentationFairness	CodeCode Available
Seq2seq for Automatic Paraphasia Detection in Aphasic Speech	Dec 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Geometric deep learning on graphs and manifolds using mixture model CNNs	Nov 25, 2016	Deep LearningDocument Classification	CodeCode Available

Show:10 25 50

← PrevPage 124 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified