Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 6433 papers

Title	Date	Tasks	Status
Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems	Jun 16, 2025	DecoderLanguage Modeling	—Unverified
BUT System for the MLC-SLM Challenge	Jun 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR	Jun 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations	Jun 16, 2025	EEGspeech-recognition	—Unverified
NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025	Jun 16, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified
SC-SOT: Conditioning the Decoder on Diarized Speaker Information for End-to-End Overlapped Speech Recognition	Jun 15, 2025	Decoderspeaker-diarization	—Unverified
Lightweight and Robust Multi-Channel End-to-End Speech Recognition with Spherical Harmonic Transform	Jun 13, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
(SimPhon Speech Test): A Data-Driven Method for In Silico Design and Validation of a Phonetically Balanced Speech Test	Jun 13, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enabling automatic transcription of child-centered audio recordings from real-world environments	Jun 13, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FairASR: Fair Audio Contrastive Learning for Automatic Speech Recognition	Jun 12, 2025	Automatic Speech RecognitionContrastive Learning	—Unverified
Joint ASR and Speaker Role Tagging with Serialized Output Training	Jun 12, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Improving Named Entity Transcription with Contextual LLM-based Revision	Jun 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advances in Small-Footprint Keyword Spotting: A Comprehensive Review of Efficient Models and Algorithms	Jun 12, 2025	Automatic Speech RecognitionKeyword Spotting	CodeCode Available
Regularizing Learnable Feature Extraction for Automatic Speech Recognition	Jun 11, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary	Jun 11, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia	Jun 10, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SimClass: A Classroom Speech Dataset Generated via Game Engine Simulation For Automatic Speech Recognition Research	Jun 10, 2025	Automatic Speech RecognitionData Augmentation	—Unverified
Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation	Jun 9, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech	Jun 9, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Uncovering the Functional Roles of Nonlinearity in Memory	Jun 9, 2025	speech-recognitionSpeech Recognition	—Unverified
Unified Semi-Supervised Pipeline for Automatic Speech Recognition	Jun 9, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Speaker-Distinguishable CTC: Learning Speaker Distinction Using CTC for Multi-Talker Speech Recognition	Jun 9, 2025	Automatic Speech RecognitionMulti-Task Learning	—Unverified
Speech Recognition on TV Series with Video-guided Post-Correction	Jun 8, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automatic Speech Recognition of African American English: Lexical and Contextual Effects	Jun 7, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs	Jun 7, 2025	Emotion Recognitionspeech-recognition	—Unverified
Lightweight Prompt Biasing for Contextualized End-to-End ASR Systems	Jun 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Diarization-Aware Multi-Speaker Automatic Speech Recognition via Large Language Models	Jun 6, 2025	Automatic Speech Recognitionspeaker-diarization	—Unverified
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning	Jun 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AS-ASR: A Lightweight Framework for Aphasia-Specific Automatic Speech Recognition	Jun 6, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
Bridging the Modality Gap: Softly Discretizing Audio Representation for LLM-based Automatic Speech Recognition	Jun 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models	Jun 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Customizing Speech Recognition Model with Large Language Model Feedback	Jun 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition	Jun 5, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM	Jun 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LLM-based phoneme-to-grapheme for phoneme-based speech recognition	Jun 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Structured State Space Model Dynamics and Parametrization for Spiking Neural Networks	Jun 4, 2025	speech-recognitionSpeech Recognition	CodeCode Available
Effects of Speaker Count, Duration, and Accent Diversity on Zero-Shot Accent Robustness in Low-Resource ASR	Jun 4, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition	Jun 4, 2025	speech-recognitionSpeech Recognition	—Unverified
Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts	Jun 4, 2025	Mistake Detectionspeech-recognition	—Unverified
A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation	Jun 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Lyrics Transcription on Music Mixtures with Consistency Loss	Jun 3, 2025	Automatic Lyrics TranscriptionAutomatic Speech Recognition	—Unverified
Overcoming Data Scarcity in Multi-Dialectal Arabic ASR via Whisper Fine-Tuning	Jun 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge	Jun 2, 2025	Language Identificationspeech-recognition	—Unverified
Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech	Jun 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Analyzing the Importance of Blank for CTC-Based Knowledge Distillation	Jun 2, 2025	Automatic Speech RecognitionKnowledge Distillation	—Unverified
Whale: Large-Scale multilingual ASR model with w2v-BERT and E-Branchformer with large speech data	Jun 2, 2025	Decoderspeech-recognition	—Unverified
Riemannian Time Warping: Multiple Sequence Alignment in Curved Spaces	Jun 2, 2025	Multiple Sequence Alignmentspeech-recognition	—Unverified
WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing	Jun 2, 2025	Keyword Spottingspeech-recognition	—Unverified
Self-Supervised Speech Quality Assessment (S3QA): Leveraging Speech Foundation Models for a Scalable Speech Quality Metric	Jun 2, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified
HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation	Jun 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 14 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified