Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 6433 papers

Title	Date	Tasks	Status	Hype
Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System	Jul 13, 2024	Decoderspeech-recognition	CodeCode Available	1
Tamil Language Computing: the Present and the Future	Jul 11, 2024	Language ModellingMachine Translation	—Unverified	0
Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition	Jul 10, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification	Jul 10, 2024	Classificationspeech-recognition	CodeCode Available	0
HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing	Jul 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks	Jul 10, 2024	Language ModelingLanguage Modelling	—Unverified	0
A voice and speech corpus of patients who underwent upper airway surgery in pre- and post-operative states	Jul 9, 2024	ArticlesClassification	CodeCode Available	0
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers	Jul 9, 2024	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation	Jul 8, 2024	Automatic Speech RecognitionEmotion Recognition	—Unverified	0
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation	Jul 8, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Morse Code-Enabled Speech Recognition for Individuals with Visual and Hearing Impairments	Jul 7, 2024	speech-recognitionSpeech Recognition	—Unverified	0
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens	Jul 7, 2024	Language ModellingLarge Language Model	CodeCode Available	11
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
XLSR-Transducer: Streaming ASR for Self-Supervised Pretrained Models	Jul 5, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Semi-supervised Learning for Code-Switching ASR with Large Language Model Filter	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Written Term Detection Improves Spoken Term Detection	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units	Jul 5, 2024	Acoustic Unit DiscoveryAutomatic Speech Recognition	CodeCode Available	2
Romanization Encoding For Multilingual ASR	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multitaper mel-spectrograms for keyword spotting	Jul 5, 2024	Keyword Spottingspeech-recognition	—Unverified	0
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models	Jul 5, 2024	Adversarial AttackAutomatic Speech Recognition	CodeCode Available	1
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation	Jul 4, 2024	Machine Translationspeech-recognition	—Unverified	0
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition	Jul 4, 2024	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis	Jul 4, 2024	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified	0
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs	Jul 4, 2024	Emotion RecognitionEvent Detection	CodeCode Available	11
Improving Self-supervised Pre-training using Accent-Specific Codebooks	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Serialized Output Training by Learned Dominance	Jul 4, 2024	Decoderspeech-recognition	—Unverified	0
Multi-Convformer: Extending Conformer with Multiple Convolution Kernels	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition	Jul 3, 2024	Alzheimer's Disease DetectionSelf-Supervised Learning	—Unverified	0
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations	Jul 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advanced Framework for Animal Sound Classification With Features Optimization	Jul 3, 2024	ClassificationDiversity	—Unverified	0
Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition	Jul 3, 2024	speech-recognitionSpeech Recognition	—Unverified	0
The USTC-NERCSLIP Systems for The ICMC-ASR Challenge	Jul 2, 2024	Automatic Speech RecognitionPseudo Label	—Unverified	0
Towards the Next Frontier in Speech Representation Learning Using Disentanglement	Jul 2, 2024	DisentanglementRepresentation Learning	—Unverified	0
Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models	Jul 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Toward Automated Detection of Biased Social Signals from the Content of Clinical Conversations	Jul 1, 2024	Fairnessspeech-recognition	—Unverified	0
Cross-Lingual Transfer Learning for Speech Translation	Jul 1, 2024	Cross-Lingual TransferDecoder	—Unverified	0
Less Forgetting for Better Generalization: Exploring Continual-learning Fine-tuning Methods for Speech Self-supervised Representations	Jun 30, 2024	Continual LearningDomain Generalization	—Unverified	0
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition	Jun 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Open-Source Conversational AI with SpeechBrain 1.0	Jun 29, 2024	Language ModelingLanguage Modelling	—Unverified	0
Less is More: Accurate Speech Recognition & Translation without Web-Scale Data	Jun 28, 2024	DecoderMachine Translation	—Unverified	0
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available	0
Tradition or Innovation: A Comparison of Modern ASR Methods for Forced Alignment	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Dynamic Data Pruning for Automatic Speech Recognition	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automatic Speech Recognition for Hindi	Jun 26, 2024	Action DetectionActivity Detection	—Unverified	0

Show:10 25 50

← PrevPage 15 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified