Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 6433 papers

Title	Date	Tasks	Status
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition	Feb 19, 2020	Language Identificationspeech-recognition	—Unverified
Roadmap towards Superhuman Speech Understanding using Large Language Models	Oct 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ROAR: Reinforcing Original to Augmented Data Ratio Dynamics for Wav2Vec2.0 Based ASR	Jun 14, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Acoustic and Semantic Contextual Biasing in Neural Transducers for Speech Recognition	May 9, 2023	Automatic Speech RecognitionLanguage Modelling	—Unverified
Robust ASR Error Correction with Conservative Data Filtering	Jul 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Attack Detection Approach for IIoT Using Ensemble Classifier	Jan 30, 2021	Anomaly DetectionIntrusion Detection	—Unverified
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts	Sep 19, 2024	Mixture-of-ExpertsRobust Speech Recognition	—Unverified
Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training	Jul 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Classification using Hidden Markov Models and Mixtures of Normalizing Flows	Feb 15, 2021	General ClassificationRobust classification	—Unverified
Robust Cross-Etiology and Speaker-Independent Dysarthric Speech Recognition	Jan 25, 2025	speech-recognitionSpeech Recognition	—Unverified
Robust Domain Adaptation By Augmented Cyclic Adversarial Learning	Oct 22, 2018	Domain Adaptationspeech-recognition	—Unverified
Robust end-to-end deep audiovisual speech recognition	Nov 21, 2016	speech-recognitionSpeech Recognition	—Unverified
Robustesse et portabilit\'es multilingue et multi-domaines des syst\`emes de compr\'ehension de la parole : les corpus du projet PortMedia (Robustness and portability of spoken language understanding systems among languages and domains : the PORTMEDIA project) [in French]	Jun 1, 2012	Speech RecognitionSpoken Dialogue Systems	—Unverified
Robust Feature Extraction to Utterance Fluctuation of Articulation Disorders Based on Random Projection	Aug 1, 2013	Dimensionality ReductionInformation Retrieval	—Unverified
Robust fine-tuning of speech recognition models via model merging: application to disordered speech	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robustifying automatic speech recognition by extracting slowly varying features	Dec 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Multi-channel Speech Recognition using Frequency Aligned Network	Feb 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions	Jan 3, 2022	Sentiment Analysisspeech-recognition	—Unverified
Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech	May 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robustness of end-to-end Automatic Speech Recognition Models – A Case Study using Mozilla DeepSpeech	Sep 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robustness of Multi-Source MT to Transcription Errors	May 26, 2023	automatic-speech-translationMachine Translation	—Unverified
Robustness of Speech Separation Models for Similar-pitch Speakers	Jul 22, 2024	speech-recognitionSpeech Recognition	—Unverified
Robustness Testing of Data and Knowledge Driven Anomaly Detection in Cyber-Physical Systems	Apr 20, 2022	Anomaly Detectionimage-classification	—Unverified
Robust Neural Machine Translation for Clean and Noisy Speech Transcripts	Oct 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Neural Machine Translation with ASR Errors	Jul 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Neural Machine Translation with Joint Textual and Phonetic Embedding	Oct 15, 2018	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
Imperio: Robust Over-the-Air Adversarial Examples for Automatic Speech Recognition Systems	Aug 5, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Prediction of Punctuation and Truecasing for Medical ASR	Jul 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model	Dec 14, 2024	speech-recognitionSpeech Recognition	—Unverified
ROBUST SPEECH COMMAND RECOGNITION USING LABEL-DRIVEN TIME-FREQUENCY MASKING	Oct 22, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust speech recognition using consensus function based on multi-layer networks	Jul 22, 2015	ClusteringClustering Ensemble	—Unverified
Robust Speech Recognition Using Generative Adversarial Networks	Nov 5, 2017	Generative Adversarial NetworkRobust Speech Recognition	—Unverified
Robust Speech Recognition with Schrödinger Bridge-Based Speech Enhancement	May 7, 2025	Robust Speech RecognitionSpeech Enhancement	—Unverified
Robust Spoken Language Understanding with RL-based Value Error Recovery	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Robust Translation of French Live Speech Transcripts	Sep 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Role of Intonation in Scoring Spoken English	Aug 23, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Role of non-linear data processing on speech recognition task in the framework of reservoir computing	Dec 19, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Role-specific Language Models for Processing Recorded Neuropsychological Exams	Jun 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Romanization Encoding For Multilingual ASR	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Romanized Arabic Transliteration	Dec 1, 2012	Machine TranslationSpeech Recognition	—Unverified
融合外部语言知识的流式越南语语音识别(Streaming Vietnamese Speech Recognition Based on Fusing External Vietnamese Language Knowledge)	Oct 1, 2022	speech-recognitionSpeech Recognition	—Unverified
RSC: A Romanian Read Speech Corpus for Automatic Speech Recognition	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RTMobile: Beyond Real-Time Mobile Acceleration of RNNs for Speech Recognition	Feb 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Run-and-back stitch search: novel block synchronous decoding for streaming encoder-decoder ASR	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Running Conventional Automatic Speech Recognition on Memristor Hardware: A Simulated Approach	May 30, 2025	Automatic Speech RecognitionQuantization	—Unverified
Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising	Oct 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Russian Stress Prediction using Maximum Entropy Ranking	Oct 1, 2013	Machine TranslationPrediction	—Unverified
RWTH-PHOENIX-Weather: A Large Vocabulary Sign Language Recognition and Translation Corpus	May 1, 2012	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SafetyNets: Verifiable Execution of Deep Neural Networks on an Untrusted Cloud	Jun 30, 2017	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 79 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified