Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2050 of 6433 papers

Title	Date	Tasks	Status
Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation	Jun 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Machine Unlearning: A Survey	Jun 6, 2023	Machine UnlearningMedical Diagnosis	—Unverified
Improving Fairness and Robustness in End-to-End Speech Recognition through unsupervised clustering	Jun 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain	Jun 6, 2023	Decision MakingRobust Speech Recognition	—Unverified
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition	Jun 5, 2023	Arabic Speech RecognitionBenchmarking	—Unverified
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition	Jun 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OTF: Optimal Transport based Fusion of Supervised and Self-Supervised Learning Models for Automatic Speech Recognition	Jun 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings	Jun 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Joint Target and Non-Target Speakers ASR	Jun 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models	Jun 3, 2023	Accented Speech RecognitionActive Learning	CodeCode Available
Audio-Visual Speech Enhancement with Score-Based Generative Models	Jun 2, 2023	Automatic Speech RecognitionLipreading	—Unverified
On Crowdsourcing-design with Comparison Category Rating for Evaluating Speech Enhancement Algorithms	Jun 2, 2023	Speech Enhancementspeech-recognition	—Unverified
Explainability of Speech Recognition Transformers via Gradient-based Attention Visualization	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Tensor decomposition for minimization of E2E SLU model toward on-device processing	Jun 2, 2023	speech-recognitionSpeech Recognition	—Unverified
Improved Training for End-to-End Streaming Automatic Speech Recognition Model with Punctuation	Jun 2, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Streaming Speech-to-Confusion Network Speech Recognition	Jun 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition	Jun 1, 2023	Predictionspeech-recognition	—Unverified
Some voices are too common: Building fair speech recognition systems using the Common Voice dataset	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning	Jun 1, 2023	Contrastive Learningspeech-recognition	—Unverified
Automatic Data Augmentation for Domain Adapted Fine-Tuning of Self-Supervised Speech Representations	Jun 1, 2023	Data AugmentationDomain Adaptation	—Unverified
Inspecting Spoken Language Understanding from Kids for Basic Math Learning at Home	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adapting an Unadaptable ASR System	Jun 1, 2023	speech-recognitionSpeech Recognition	—Unverified
Adaptation and Optimization of Automatic Speech Recognition (ASR) for the Maritime Domain in the Field of VHF Communication	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SlothSpeech: Denial-of-service Attack Against Speech Recognition Models	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
AfriNames: Most ASR models "butcher" African Names	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Encoder-decoder multimodal speaker change detection	Jun 1, 2023	Automatic Speech RecognitionChange Detection	—Unverified
On the Robustness of Arabic Speech Dialect Identification	Jun 1, 2023	Dialect IdentificationSelf-Supervised Learning	—Unverified
Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts	Jun 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech inpainting: Context-based speech synthesis guided by video	Jun 1, 2023	speech-recognitionSpeech Recognition	—Unverified
VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech Recognition	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing Multilingual ASR	May 31, 2023	speech-recognitionSpeech Recognition	—Unverified
Accurate and Structured Pruning for Efficient Automatic Speech Recognition	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Strategies for improving low resource speech to text translation relying on pre-trained ASR models	May 31, 2023	Automatic Speech RecognitionDecoder	—Unverified
Zero-Shot Automatic Pronunciation Assessment	May 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The News Delivery Channel Recommendation Based on Granular Neural Network	May 30, 2023	Collaborative FilteringDeep Learning	—Unverified
Graph Neural Networks for Contextual ASR with the Tree-Constrained Pointer Generator	May 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Adapting Multi-Lingual ASR Models for Handling Multiple Talkers	May 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Selection of Text-to-speech Data to Augment ASR Training	May 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified
Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity Estimation	May 29, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice	May 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target	May 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition	May 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Building Accurate Low Latency ASR for Streaming Voice Search	May 29, 2023	Action DetectionActivity Detection	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition	May 29, 2023	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 41 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified