Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 6433 papers

Title	Date	Tasks	Status
Text-Based Detection of On-Hold Scripts in Contact Center Calls	Jul 13, 2024	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Tamil Language Computing: the Present and the Future	Jul 11, 2024	Language ModellingMachine Translation	—Unverified
Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification	Jul 10, 2024	Classificationspeech-recognition	CodeCode Available
Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition	Jul 10, 2024	speech-recognitionSpeech Recognition	—Unverified
Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks	Jul 10, 2024	Language ModelingLanguage Modelling	—Unverified
HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing	Jul 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A voice and speech corpus of patients who underwent upper airway surgery in pre- and post-operative states	Jul 9, 2024	ArticlesClassification	CodeCode Available
Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation	Jul 8, 2024	Automatic Speech RecognitionEmotion Recognition	—Unverified
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation	Jul 8, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Morse Code-Enabled Speech Recognition for Individuals with Visual and Hearing Impairments	Jul 7, 2024	speech-recognitionSpeech Recognition	—Unverified
Multitaper mel-spectrograms for keyword spotting	Jul 5, 2024	Keyword Spottingspeech-recognition	—Unverified
LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Romanization Encoding For Multilingual ASR	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Written Term Detection Improves Spoken Term Detection	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semi-supervised Learning for Code-Switching ASR with Large Language Model Filter	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
XLSR-Transducer: Streaming ASR for Self-Supervised Pretrained Models	Jul 5, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition	Jul 5, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis	Jul 4, 2024	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
Serialized Output Training by Learned Dominance	Jul 4, 2024	Decoderspeech-recognition	—Unverified
Multi-Convformer: Extending Conformer with Multiple Convolution Kernels	Jul 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation	Jul 4, 2024	Machine Translationspeech-recognition	—Unverified
Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition	Jul 3, 2024	speech-recognitionSpeech Recognition	—Unverified
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition	Jul 3, 2024	Alzheimer's Disease DetectionSelf-Supervised Learning	—Unverified
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations	Jul 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Advanced Framework for Animal Sound Classification With Features Optimization	Jul 3, 2024	ClassificationDiversity	—Unverified
The USTC-NERCSLIP Systems for The ICMC-ASR Challenge	Jul 2, 2024	Automatic Speech RecognitionPseudo Label	—Unverified
Towards the Next Frontier in Speech Representation Learning Using Disentanglement	Jul 2, 2024	DisentanglementRepresentation Learning	—Unverified
Cross-Lingual Transfer Learning for Speech Translation	Jul 1, 2024	Cross-Lingual TransferDecoder	—Unverified
Toward Automated Detection of Biased Social Signals from the Content of Clinical Conversations	Jul 1, 2024	Fairnessspeech-recognition	—Unverified
Less Forgetting for Better Generalization: Exploring Continual-learning Fine-tuning Methods for Speech Self-supervised Representations	Jun 30, 2024	Continual LearningDomain Generalization	—Unverified
Open-Source Conversational AI with SpeechBrain 1.0	Jun 29, 2024	Language ModelingLanguage Modelling	—Unverified
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition	Jun 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Less is More: Accurate Speech Recognition & Translation without Web-Scale Data	Jun 28, 2024	DecoderMachine Translation	—Unverified
Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Tradition or Innovation: A Comparison of Modern ASR Methods for Forced Alignment	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over	Jun 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available
Automatic Speech Recognition for Hindi	Jun 26, 2024	Action DetectionActivity Detection	—Unverified
MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dynamic Data Pruning for Automatic Speech Recognition	Jun 26, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequential Editing for Lifelong Training of Speech Recognition Models	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization	Jun 25, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR	Jun 25, 2024	Language ModelingLanguage Modelling	—Unverified
Investigating Confidence Estimation Measures for Speaker Diarization	Jun 24, 2024	speaker-diarizationSpeaker Diarization	—Unverified
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024	Jun 24, 2024	Action DetectionActivity Detection	—Unverified
Decoder-only Architecture for Streaming End-to-end Speech Recognition	Jun 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 26 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified