Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1551–1600 of 6433 papers

Title	Date	Tasks	Status	Hype
Utilizing Longitudinal Chest X-Rays and Reports to Pre-Fill Radiology Reports	Jun 14, 2023	Decoderspeech-recognition	CodeCode Available	1
Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition	Jun 14, 2023	Data Augmentationspeech-recognition	—Unverified	0
Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement	Jun 14, 2023	Self-Supervised LearningSpeech Enhancement	—Unverified	0
Research on an improved Conformer end-to-end Speech Recognition Model with R-Drop Structure	Jun 14, 2023	Domain Adaptationspeech-recognition	—Unverified	0
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation	Jun 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ITALIC: An Italian Intent Classification Dataset	Jun 14, 2023	Classificationintent-classification	CodeCode Available	1
Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer	Jun 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Large-scale Language Model Rescoring on Long-form Data	Jun 13, 2023	FormLanguage Modeling	—Unverified	0
Statistical Beamformer Exploiting Non-stationarity and Sparsity with Spatially Constrained ICA for Robust Speech Recognition	Jun 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR	Jun 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages	Jun 13, 2023	Contrastive Learningspeech-recognition	CodeCode Available	1
Parameter-efficient Dysarthric Speech Recognition Using Adapter Fusion and Householder Transformation	Jun 12, 2023	Diversityspeech-recognition	—Unverified	0
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding	Jun 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition	Jun 12, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
On the N-gram Approximation of Pre-trained Language Models	Jun 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Impact of Experiencing Misrecognition by Teachable Agents on Learning and Rapport	Jun 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment	Jun 10, 2023	Audio-Visual Speech RecognitionLip Reading	CodeCode Available	1
What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification Model	Jun 10, 2023	Automatic Speech RecognitionProsody Prediction	—Unverified	0
Adversarial Training For Low-Resource Disfluency Correction	Jun 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Modality Influence in Multimodal Machine Learning	Jun 10, 2023	Decision MakingEmotion Recognition	—Unverified	0
Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition	Jun 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Theory of Unsupervised Speech Recognition	Jun 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Record Deduplication for Entity Distribution Modeling in ASR Transcripts	Jun 9, 2023	Entity Resolutionspeech-recognition	—Unverified	0
Latent Phrase Matching for Dysarthric Speech	Jun 8, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Improving Language Model Integration for Neural Machine Translation	Jun 8, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator	Jun 7, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally Occurring Spelling Inconsistency	Jun 7, 2023	Machine Translationspeech-recognition	—Unverified	0
An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to First Graders	Jun 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Transfer Learning of Transformer-based Speech Recognition Models from Czech to Slovak	Jun 7, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages	Jun 7, 2023	Cross-Lingual Transferspeech-recognition	CodeCode Available	1
Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes	Jun 7, 2023	AttributeCross-Lingual Transfer	CodeCode Available	1
Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer	Jun 7, 2023	Domain AdaptationLanguage Modeling	—Unverified	0
A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment	Jun 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Label Aware Speech Representation Learning For Language Identification	Jun 7, 2023	Language IdentificationMissing Labels	—Unverified	0
Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation	Jun 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization	Jun 7, 2023	Automatic Speech RecognitionDecoder	—Unverified	0
Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain	Jun 6, 2023	Decision MakingRobust Speech Recognition	—Unverified	0
Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Machine Unlearning: A Survey	Jun 6, 2023	Machine UnlearningMedical Diagnosis	—Unverified	0
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition	Jun 5, 2023	Arabic Speech RecognitionBenchmarking	—Unverified	0
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition	Jun 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
OTF: Optimal Transport based Fusion of Supervised and Self-Supervised Learning Models for Automatic Speech Recognition	Jun 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information	Jun 4, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
End-to-End Joint Target and Non-Target Speakers ASR	Jun 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings	Jun 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models	Jun 3, 2023	Accented Speech RecognitionActive Learning	CodeCode Available	0
SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization	Jun 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1

Show:10 25 50

← PrevPage 32 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified