Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4251–4300 of 6433 papers

Title	Date	Tasks	Status
Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training	Jul 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Low Resource German ASR with Untranscribed Data Spoken by Non-native Children -- INTERSPEECH 2021 Shared Task SPAPL System	Jun 18, 2021	Acoustic ModellingAutomatic Speech Recognition	—Unverified
Low-resource Low-footprint Wake-word Detection using Knowledge Distillation	Jul 6, 2022	Knowledge Distillationspeech-recognition	—Unverified
Low-Resource Machine Transliteration Using Recurrent Neural Networks of Asian Languages	Jul 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Low-resource speech recognition and dialect identification of Irish in a multi-task framework	May 2, 2024	DecoderDialect Identification	—Unverified
Low-Resource Speech-to-Text Translation	Mar 24, 2018	DecoderMachine Translation	—Unverified
Low-Resource Spoken Language Identification Using Self-Attentive Pooling and Deep 1D Time-Channel Separable Convolutions	May 31, 2021	Language Identificationspeech-recognition	—Unverified
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition	Aug 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified
LSTM Acoustic Models Learn to Align and Pronounce with Graphemes	Aug 13, 2020	speech-recognitionSpeech Recognition	—Unverified
LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker Recognition to Overcome Data Scarcity	Jul 1, 2020	ClassificationGeneral Classification	—Unverified
LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition	Oct 21, 2020	Decoderspeech-recognition	—Unverified
SHARP: An Adaptable, Energy-Efficient Accelerator for Recurrent Neural Network	Nov 4, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LUPET: Incorporating Hierarchical Information Path into Multilingual ASR	Jan 8, 2024	Acoustic Unit DiscoveryAutomatic Speech Recognition	—Unverified
LUT-NN: Empower Efficient Neural Network Inference with Centroid Learning and Table Lookup	Feb 7, 2023	Efficient Neural Networkspeech-recognition	—Unverified
LVCSR System on a Hybrid GPU-CPU Embedded Platform for Real-Time Dialog Applications	Sep 1, 2016	CPUGPU	—Unverified
LV-CTC: Non-autoregressive ASR with CTC and latent variable models	Mar 28, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lyrics-to-Audio Alignment by Unsupervised Discovery of Repetitive Patterns in Vowel Acoustics	Jan 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
M^3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset	Mar 21, 2024	DiversityScript Generation	—Unverified
M3D-GAN: Multi-Modal Multi-Domain Translation with Universal Attention	Jul 9, 2019	Dialogue GenerationImage Captioning	—Unverified
MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using DRAM Technology	Jul 16, 2022	speech-recognitionSpeech Recognition	—Unverified
Machine Semiotics	Aug 24, 2020	Implicaturesspeech-recognition	—Unverified
Machine Speech Chain with One-shot Speaker Adaptation	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Machine Unlearning: A Survey	Jun 6, 2023	Machine UnlearningMedical Diagnosis	—Unverified
Macro-block dropout for improved regularization in training end-to-end speech recognition models	Dec 29, 2022	Decoderspeech-recognition	—Unverified
MADI: Inter-domain Matching and Intra-domain Discrimination for Cross-domain Speech Recognition	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MAESTRO: Matched Speech Text Representations through Modality Matching	Apr 7, 2022	Language ModellingSelf-Supervised Learning	—Unverified
Maestro-U: Leveraging joint speech-text representation learning for zero supervised speech ASR	Oct 18, 2022	Representation Learningspeech-recognition	—Unverified
Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0	Oct 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mai Ho'omāuna i ka 'Ai: Language Models Improve Automatic Speech Recognition in Hawaiian	Apr 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Making Convolutional Networks Recurrent for Visual Sequence Learning	Jun 1, 2018	Action RecognitionFace Alignment	—Unverified
Making Speech-Based Assistive Technology Work for a Real User	Aug 1, 2013	Speech Recognition	—Unverified
Malayalam Speech Corpus: Design and Development for Dravidian Language	May 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
M\'alr\'omur: A Manually Verified Corpus of Recorded Icelandic Speech	May 1, 2017	Automatic Speech Recognition (ASR)Speech Recognition	—Unverified
MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models	Oct 7, 2021	Language IdentificationSelf-Supervised Learning	—Unverified
Mandarin-English Code-Switching Speech Recognition System for Specific Domain	Nov 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Manifold-Kernels Comparison in MKPLS for Visual Speech Recognition	Jan 22, 2016	speech-recognitionSpeech Recognition	—Unverified
ManWav: The First Manchu ASR Model	Jun 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mapping AI Arguments in Journalism Studies	Sep 3, 2023	Schedulingspeech-recognition	—Unverified
Mapping Diatopic and Diachronic Variation in Spoken Czech: The ORTOFON and DIALEKT Corpora	May 1, 2014	Speech Recognition	—Unverified
Mapping Generative Models onto a Network of Digital Spiking Neurons	Sep 24, 2015	image-classificationImage Classification	—Unverified
Mapping Rules for Building a Tunisian Dialect Lexicon and Generating Corpora	Oct 1, 2013	Language ModellingSpeech Recognition	—Unverified
Markovian Discriminative Modeling for Dialog State Tracking	Jun 1, 2014	dialog state trackingSpeech Recognition	—Unverified
Masked Audio Text Encoders are Effective Multi-Modal Rescorers	May 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mask scalar prediction for improving robust automatic speech recognition	Apr 26, 2022	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Mask the Correct Tokens: An Embarrassingly Simple Approach for Error Correction	Nov 23, 2022	DecoderSentence	—Unverified
MASR: A Modular Accelerator for Sparse RNNs	Aug 23, 2019	speech-recognitionSpeech Recognition	—Unverified
MASRI-HEADSET: A Maltese Corpus for Speech Recognition	Aug 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 86 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified