Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2551–2600 of 6433 papers

Title	Date	Tasks	Status
A Novel Method for improving accuracy in neural network by reinstating traditional back propagation technique	Aug 9, 2023	speech-recognitionSpeech Recognition	—Unverified
Enhancing Whisper's Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization	Dec 27, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
First Steps Towards Voice Anonymization for Code-Switching Speech	Jul 2, 2025	speech-recognitionSpeech Recognition	—Unverified
Fixing Errors of the Google Voice Recognizer through Phonetic Distance Metrics	Feb 18, 2021	Language ModelingLanguage Modelling	—Unverified
Enhancing Unsupervised Speech Recognition with Diffusion GANs	Mar 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cloud-Based Face and Speech Recognition for Access Control Applications	Apr 23, 2020	Face Recognitionspeech-recognition	—Unverified
Accelerating recurrent neural network language model based online speech recognition system	Jan 30, 2018	CPUGPU	—Unverified
Flexible Multichannel Speech Enhancement for Noise-Robust Frontend	Jun 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices	Apr 24, 2024	Automatic Speech RecognitionCPU	—Unverified
Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning	Jun 1, 2023	Contrastive Learningspeech-recognition	—Unverified
Enhancing the TED-LIUM Corpus with Selected Data for Language Modeling and More TED Talks	May 1, 2014	Language ModelingLanguage Modelling	—Unverified
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech	Dec 27, 2021	Language Acquisitionspeech-recognition	—Unverified
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space	Sep 19, 2024	Automatic Speech RecognitionData Augmentation	—Unverified
Enhancing Speech Recognition Decoding via Layer Aggregation	Mar 21, 2022	Language Modellingspeech-recognition	—Unverified
A Novel End-to-End CAPT System for L2 Children Learners	Nov 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders	Feb 21, 2025	Audio captioningAutomatic Speech Recognition	—Unverified
Enhancing Speech Instruction Understanding and Disambiguation in Robotics via Speech Prosody	Jun 1, 2025	In-Context Learningspeech-recognition	—Unverified
Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition	Sep 14, 2023	speech-recognitionSpeech Recognition	—Unverified
FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator	Jun 7, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Foreign English Accent Adjustment by Learning Phonetic Patterns	Jul 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fotheidil: an Automatic Transcription System for the Irish Language	Dec 31, 2024	Action DetectionActivity Detection	—Unverified
Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models	Apr 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Four-in-One: A Joint Approach to Inverse Text Normalization, Punctuation, Capitalization, and Disfluency for Automatic Speech Recognition	Oct 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FPGA-Based Low-Power Speech Recognition with Recurrent Neural Networks	Sep 30, 2016	Language ModelingLanguage Modelling	—Unverified
FPGA Resource-aware Structured Pruning for Real-Time Neural Networks	Aug 9, 2023	Classificationimage-classification	—Unverified
FPI: Failure Point Isolation in Large-scale Conversational Assistants	Jul 1, 2022	Response Generationspeech-recognition	—Unverified
Free Acoustic and Language Models for Large Vocabulary Continuous Speech Recognition in Swedish	May 1, 2014	Language Modellingspeech-recognition	—Unverified
Free English and Czech telephone speech corpus shared under the CC-BY-SA 3.0 license	May 1, 2014	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Free on-line speech recogniser based on Kaldi ASR toolkit producing word posterior lattices	Jun 1, 2014	Acoustic ModellingLanguage Modelling	—Unverified
FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning Attacks in Federated Learning	Dec 7, 2023	Federated Learningimage-classification	—Unverified
Frequency-Directional Attention Model for Multilingual Automatic Speech Recognition	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition	Apr 28, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From `Solved Problems' to New Challenges: A Report on LDC Activities	May 1, 2018	Dialogue ManagementLanguage Identification	—Unverified
From Audio to Semantics: Approaches to end-to-end spoken language understanding	Sep 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From Audio to Symbolic Encoding	Feb 26, 2023	Information RetrievalMusic Information Retrieval	—Unverified
From Caesar Cipher to Unsupervised Learning: A New Method for Classifier Parameter Estimation	Jun 6, 2019	Binary ClassificationGeneral Classification	—Unverified
From dictations to clinical reports using machine translation	Jun 1, 2018	Machine TranslationPunctuation Restoration	—Unverified
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition	Jan 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
From Human Language Technology to Human Language Science	Jul 1, 2016	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Neural Spoken Language Recognition: An Exploration with Multilingual Datasets	Jan 19, 2025	speech-recognitionSpeech Recognition	—Unverified
From Nodes to Networks: Evolving Recurrent Neural Networks	Mar 12, 2018	Language ModelingLanguage Modelling	—Unverified
From Semi-supervised to Almost-unsupervised Speech Recognition with Very-low Resource by Jointly Learning Phonetic Structures from Audio and Text Embeddings	Apr 10, 2019	speech-recognitionSpeech Recognition	—Unverified
From Senones to Chenones: Tied Context-Dependent Graphemes for Hybrid Speech Recognition	Oct 2, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Summarizing Speech: A Comprehensive Survey	Apr 10, 2025	Meeting Summarizationspeech-recognition	—Unverified
From Statistical Methods to Pre-Trained Models; A Survey on Automatic Speech Recognition for Resource Scarce Urdu Language	Nov 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From Strangers to Partners: Examining Convergence within a Longitudinal Study of Task-Oriented Dialogue	Jul 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
An Outlyingness Matrix for Multivariate Functional Data Classification	Apr 9, 2017	ClassificationGeneral Classification	—Unverified
From Voice to Safety: Language AI Powered Pilot-ATC Communication Understanding for Airport Surface Movement Collision Risk Assessment	Mar 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advances in All-Neural Speech Recognition	Sep 19, 2016	AllLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 52 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified