Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6101–6150 of 6433 papers

Title	Date	Tasks	Status
BUT System for the MLC-SLM Challenge	Jun 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Byte-based Neural Machine Translation	Sep 1, 2017	Language ModelingLanguage Modelling	—Unverified
Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition	Jan 28, 2024	AllAutomatic Speech Recognition	—Unverified
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes	Nov 22, 2018	Allspeech-recognition	—Unverified
Cache-Augmented Latent Topic Language Models for Speech Retrieval	Jun 1, 2015	Language ModellingRetrieval	—Unverified
CacheNet: A Model Caching Framework for Deep Learning Inference on the Edge	Jul 3, 2020	image-classificationImage Classification	—Unverified
CAFE A Novel Code switching Dataset for Algerian Dialect French and English	Nov 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust Intent Detection	May 23, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Calibration of Phone Likelihoods in Automatic Speech Recognition	Jun 14, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Calm-Whisper: Reduce Whisper Hallucination On Non-Speech By Calming Crazy Heads Down	May 19, 2025	Automatic Speech RecognitionDecoder	—Unverified
Can Discourse Relations be Identified Incrementally?	Nov 1, 2017	Discourse ParsingLanguage Modeling	—Unverified
Can Generative Large Language Models Perform ASR Error Correction?	Jul 9, 2023	Decoderspeech-recognition	—Unverified
Can neural networks predict dynamics they have never seen?	Nov 12, 2021	Machine Translationobject-detection	—Unverified
Can Pretrained Neural Networks Detect Anatomy?	Dec 18, 2015	Anatomyspeech-recognition	—Unverified
A Wav2vec2-Based Experimental Study on Self-Supervised Learning Methods to Improve Child Speech Recognition	Apr 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can spontaneous spoken language disfluencies help describe syntactic dependencies? An empirical study	Aug 1, 2018	Speech RecognitionText Generation	—Unverified
Cantonese Automatic Speech Recognition Using Transfer Learning from Mandarin	Nov 21, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent?	Oct 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can We Train a Language Model Inside an End-to-End ASR Model? - Investigating Effective Implicit Language Modeling	Oct 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition	May 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can Whisper perform speech-based in-context learning?	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can You Hear It? Backdoor Attacks via Ultrasonic Triggers	Jul 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can you hear me now? Sensitive comparisons of human and machine perception	Mar 27, 2020	Mathspeech-recognition	—Unverified
Can You Repeat That? Using Word Repetition to Improve Spoken Term Detection	Jun 1, 2014	Speech Recognition	—Unverified
Capitalization and Punctuation Restoration: a Survey	Nov 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Capturing Multi-Resolution Context by Dilated Self-Attention	Apr 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification	Aug 2, 2023	Automatic Speech RecognitionDecoder	—Unverified
CarneliNet: Neural Mixture Model for Automatic Speech Recognition	Jul 22, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CASA-ASR: Context-Aware Speaker-Attributed ASR	May 21, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Casablanca: Data and Models for Multidialectal Arabic Speech Recognition	Oct 6, 2024	Arabic Speech Recognitionspeech-recognition	—Unverified
Cascaded CNN-resBiLSTM-CTC: An End-to-End Acoustic Model For Speech Recognition	Oct 29, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascaded Cross-Modal Transformer for Request and Complaint Detection	Jul 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascaded encoders for unifying streaming and non-streaming ASR	Oct 27, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascaded Models With Cyclic Feedback For Direct Speech Translation	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter	Nov 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CASSANDRA: A multipurpose configurable voice-enabled human-computer-interface	Apr 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition	Oct 28, 2020	Decoderspeech-recognition	—Unverified
CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency	May 27, 2020	speech-recognitionSpeech Recognition	—Unverified
Causal Analysis of ASR Errors for Children: Quantifying the Impact of Physiological, Cognitive, and Extrinsic Factors	Feb 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Causal Structure Discovery for Error Diagnostics of Children's ASR	May 31, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Multitask Training Approach to Enhance Whisper with Contextual Biasing and Open-Vocabulary Keyword Spotting	Sep 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CEASR: A Corpus for Evaluating Automatic Speech Recognition	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chain-based Discriminative Autoencoders for Speech Recognition	Mar 25, 2022	DecoderRobust Speech Recognition	—Unverified
Chain of Correction for Full-text Speech Recognition with Large Language Models	Apr 2, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chain-of-Thought Prompting for Speech Translation	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chain-of-Thought Training for Open E2E Spoken Dialogue Systems	May 31, 2025	Language ModelingLanguage Modelling	—Unverified
Challenges and Insights: Exploring 3D Spatial Features and Complex Networks on the MISP Dataset	Oct 5, 2023	speech-recognitionSpeech Recognition	—Unverified
Challenges and Obstacles Towards Deploying Deep Learning Models on Mobile Devices	May 6, 2021	Autonomous VehiclesDeep Learning	—Unverified
Challenges and Opportunities in Multi-device Speech Processing	Jun 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 123 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified