Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1200 of 6433 papers

Title	Date	Tasks	Status	Hype
Keyword spotting -- Detecting commands in speech using deep learning	Dec 9, 2023	Deep LearningFeature Engineering	—Unverified	0
A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing	Dec 9, 2023	Deep LearningLanguage Modeling	—Unverified	0
FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning Attacks in Federated Learning	Dec 7, 2023	Federated Learningimage-classification	—Unverified	0
Graph Convolutions Enrich the Self-Attention in Transformers!	Dec 7, 2023	Clone Detection	CodeCode Available	1
Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation	Dec 6, 2023	Cross-Lingual TransferPhoneme Recognition	—Unverified	0
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models	Dec 6, 2023	Automatic Speech RecognitionDecoder	—Unverified	0
Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition	Dec 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo Multi-modal Features	Dec 5, 2023	cross-modal alignmentDecoder	—Unverified	0
Bigger is not Always Better: The Effect of Context Size on Speech Pre-Training	Dec 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
End-to-End Speech-to-Text Translation: A Survey	Dec 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self Generated Wargame AI: Double Layer Agent Task Planning Based on Large Language Model	Dec 2, 2023	Decision MakingLanguage Modeling	—Unverified	0
Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach	Nov 30, 2023	Dialect IdentificationMulti-class Classification	—Unverified	0
Speech Understanding on Tiny Devices with A Learning Cache	Nov 30, 2023	speech-recognitionSpeech Recognition	CodeCode Available	0
Adapting OpenAI's Whisper for Speech Recognition on Code-Switch Mandarin-English SEAME and ASRU2019 Datasets	Nov 29, 2023	speech-recognitionSpeech Recognition	—Unverified	0
End-to-end Joint Punctuated and Normalized ASR with a Limited Amount of Punctuated Training Data	Nov 29, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
D4AM: A General Denoising Framework for Downstream Acoustic Models	Nov 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors	Nov 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Phonetic-aware speaker embedding for far-field speaker verification	Nov 27, 2023	Speaker RecognitionSpeaker Verification	—Unverified	0
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching	Nov 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR	Nov 24, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Do VSR Models Generalize Beyond LRS3?	Nov 23, 2023	Lip Readingspeech-recognition	CodeCode Available	1
Investigating Weight-Perturbed Deep Neural Networks With Application in Iris Presentation Attack Detection	Nov 21, 2023	image-classificationImage Classification	CodeCode Available	0
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified	0
Soft Random Sampling: A Theoretical and Empirical Analysis	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified	0
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	0
App for Resume-Based Job Matching with Speech Interviews and Grammar Analysis: A Review	Nov 20, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
How does end-to-end speech recognition training impact speech enhancement artifacts?	Nov 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems	Nov 20, 2023	Autonomous DrivingAutonomous Vehicles	—Unverified	0
Label-Synchronous Neural Transducer for Adaptable Online E2E Speech Recognition	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System	Nov 17, 2023	DecoderPrivacy Preserving	—Unverified	0
Investigating the Emergent Audio Classification Ability of ASR Foundation Models	Nov 15, 2023	Audio ClassificationDecoder	CodeCode Available	0
Improving Large-scale Deep Biasing with Phoneme Features and Text-only Data in Streaming Transducer	Nov 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-channel Conversational Speaker Separation via Neural Diarization	Nov 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhanced Generative Adversarial Networks for Unseen Word Generation from EEG Signals	Nov 14, 2023	Brain Computer InterfaceData Augmentation	—Unverified	0
Retrieve and Copy: Scaling ASR Personalization to Large Catalogs	Nov 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models	Nov 14, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	3
Zero-shot audio captioning with audio-language model guidance and audio context keywords	Nov 14, 2023	Audio captioningDescriptive	CodeCode Available	1
On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition	Nov 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ChatGPT in the context of precision agriculture data analytics	Nov 10, 2023	Language Modellingspeech-recognition	CodeCode Available	0
Improving Whispered Speech Recognition Performance using Pseudo-whispered based Data Augmentation	Nov 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder Layer Optimization	Nov 9, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Towards End-to-End Spoken Grammatical Error Correction	Nov 9, 2023	Grammatical Error Correctionspeech-recognition	—Unverified	0
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition	Nov 8, 2023	CPUDecoder	CodeCode Available	1
1SPU: 1-step Speech Processing Unit	Nov 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition	Nov 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning	Nov 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Fine-tuning convergence model in Bengali speech recognition	Nov 7, 2023	Automatic Speech Recognitionmodel	—Unverified	0
Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition	Nov 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0

Show:10 25 50

← PrevPage 24 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified