Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 6433 papers

Title	Date	Tasks	Status	Score
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks	Apr 22, 2024	speech-recognitionSpeech Recognition	CodeCode Available	5
RadioTalk: a large-scale corpus of talk radio transcripts	Jul 16, 2019	Descriptivespeech-recognition	CodeCode Available	5
Exploiting Attention-based Sequence-to-Sequence Architectures for Sound Event Localization	Feb 28, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Rank-1 Constrained Multichannel Wiener Filter for Speech Recognition in Noisy Environments	Jul 1, 2017	speech-recognitionSpeech Recognition	CodeCode Available	5
Exploiting Adapters for Cross-lingual Low-resource Speech Recognition	May 18, 2021	Cross-Lingual ASRGeneral Knowledge	CodeCode Available	5
Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired Listeners	Apr 8, 2022	PredictionSpeech Enhancement	CodeCode Available	5
Exploring spectro-temporal features in end-to-end convolutional neural networks	Jan 1, 2019	speech-recognitionSpeech Recognition	CodeCode Available	5
A Gentle Tutorial of Recurrent Neural Network with Error Backpropagation	Oct 8, 2016	Handwriting RecognitionImage to text	CodeCode Available	5
A Small and Fast BERT for Chinese Medical Punctuation Restoration	Aug 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
RED-ACE: Robust Error Detection for ASR using Confidence Embeddings	Mar 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning	Sep 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Explainability of Speech Recognition Transformers via Gradient-based Attention Visualization	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
ASL Trigger Recognition in Mixed Activity/Signing Sequences for RF Sensor-Based User Interfaces	Nov 10, 2021	Sign Language Recognitionspeech-recognition	CodeCode Available	5
Evolutionary Stochastic Gradient Descent for Optimization of Deep Neural Networks	Oct 16, 2018	Evolutionary AlgorithmsLanguage Modeling	CodeCode Available	5
Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification	Jul 10, 2024	Classificationspeech-recognition	CodeCode Available	5
Leveraging Cross-Lingual Transfer Learning in Spoken Named Entity Recognition Systems	Jul 3, 2023	Cross-Lingual Transfernamed-entity-recognition	CodeCode Available	5
Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions	Feb 1, 2025	Lipreadingspeech-recognition	CodeCode Available	5
Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks	Jun 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Re-Translation Strategies For Long Form, Simultaneous, Spoken Language Translation	Dec 6, 2019	FormMachine Translation	CodeCode Available	5
A Simple Way to Initialize Recurrent Networks of Rectified Linear Units	Apr 3, 2015	Language ModelingLanguage Modelling	CodeCode Available	5
Evaluating Variants of wav2vec 2.0 on Affective Vocal Burst Tasks	May 5, 2023	Automatic Speech RecognitionCultural Vocal Bursts Intensity Prediction	CodeCode Available	5
Revisiting Word Embedding for Contrasting Meaning	Jul 1, 2015	Machine TranslationSpeech Recognition	CodeCode Available	5
Evaluation Phonemic Transcription of Low-Resource Tonal Languages for Language Documentation	May 1, 2018	Acoustic ModellingLanguage Modeling	CodeCode Available	5
Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition	Mar 18, 2019	DecoderHandwritten Text Recognition	CodeCode Available	5
A Generalized Language Model as the Combination of Skipped n-grams and Modified Kneser Ney Smoothing	Jun 1, 2014	Language ModelingLanguage Modelling	CodeCode Available	5
Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech	Jun 23, 2018	ClassificationEmotion Recognition	CodeCode Available	5
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors	Oct 25, 2023	en-US domain classificationen-US Intent Classification	CodeCode Available	5
Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy audios in the VOICe Dataset	Nov 1, 2021	Event DetectionRetrieval	CodeCode Available	5
Exploring TTS without T Using Biologically/Psychologically Motivated Neural Network Modules (ZeroSpeech 2020)	May 11, 2020	Clusteringspeech-recognition	CodeCode Available	5
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech	May 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Bandwidth Embeddings for Mixed-bandwidth Speech Recognition	Sep 5, 2019	speech-recognitionSpeech Recognition	CodeCode Available	5
BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization	Nov 16, 2024	Machine Translationspeech-recognition	CodeCode Available	5
Enriching Rare Word Representations in Neural Language Models by Embedding Matrix Augmentation	Apr 8, 2019	speech-recognitionSpeech Recognition	CodeCode Available	5
Error-preserving Automatic Speech Recognition of Young English Learners' Language	Jun 5, 2024	Automatic Speech RecognitionLanguage Modelling	CodeCode Available	5
Enhancing Quantised End-to-End ASR Models via Personalisation	Sep 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
End-to-end Spoken Language Understanding with Tree-constrained Pointer Generator	Oct 29, 2022	intent-classificationIntent Classification	CodeCode Available	5
A segmental framework for fully-unsupervised large-vocabulary speech recognition	Jun 22, 2016	Language ModellingSpeech Recognition	CodeCode Available	5
End-to-End Speech Recognition With Joint Dereverberation Of Sub-Band Autoregressive Envelopes	Aug 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
ASDF: A Differential Testing Framework for Automatic Speech Recognition Systems	Feb 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
End-to-End Speech Recognition and Disfluency Removal with Acoustic Language Model Pretraining	Sep 8, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
End-to-End Speech Recognition From the Raw Waveform	Jun 19, 2018	speech-recognitionSpeech Recognition	CodeCode Available	5
End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Leveraging Self-Supervised Models for Automatic Whispered Speech Recognition	Jul 30, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available	5
Bayesian Learning for Deep Neural Network Adaptation	Dec 14, 2020	speech-recognitionSpeech Recognition	CodeCode Available	5
End-to-end Audiovisual Speech Recognition	Feb 18, 2018	Lipreadingspeech-recognition	CodeCode Available	5
Bayesian Neural Network Language Modeling for Speech Recognition	Aug 28, 2022	Data AugmentationLanguage Modeling	CodeCode Available	5
End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations	Aug 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model	Mar 12, 2019	Data Augmentationspeech-recognition	CodeCode Available	5

Show:10 25 50

← PrevPage 20 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified