Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 6433 papers

Title	Date	Tasks	Status
FairLENS: Assessing Fairness in Law Enforcement Speech Recognition	May 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Non-autoregressive real-time Accent Conversion model with voice cloning	May 21, 2024	Speech Enhancementspeech-recognition	—Unverified
Could a Computer Architect Understand our Brain?	May 21, 2024	DescriptiveERP	—Unverified
Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining	May 20, 2024	Sign Language Recognitionspeech-recognition	—Unverified
Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models	May 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation	May 15, 2024	speech-recognitionSpeech Recognition	CodeCode Available
Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings	May 15, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer	May 15, 2024	Adversarial AttackAutomatic Speech Recognition	—Unverified
Investigating the 'Autoencoder Behavior' in Speech Self-Supervised Models: a focus on HuBERT's Pretraining	May 14, 2024	Self-Supervised Learningspeech-recognition	—Unverified
Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants	May 14, 2024	Automatic Speech RecognitionDiversity	—Unverified
SpeechVerse: A Large-scale Generalizable Audio Language Model	May 14, 2024	Automatic Speech RecognitionBenchmarking	—Unverified
Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases	May 13, 2024	Audio ClassificationDiagnostic	CodeCode Available
Large Language Models for Education: A Survey	May 12, 2024	Autonomous Drivingspeech-recognition	—Unverified
Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech	May 10, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation	May 10, 2024	Federated LearningNatural Language Understanding	—Unverified
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available
Open Implementation and Study of BEST-RQ for Speech Processing	May 7, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whispy: Adapting STT Whisper Models to Real-Time Environments	May 6, 2024	Action DetectionActivity Detection	—Unverified
MMGER: Multi-modal and Multi-granularity Generative Error Correction with LLM for Joint Accent and Speech Recognition	May 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixat: A Data Set of Bilingual Emirati-English Speech	May 4, 2024	speech-recognitionSpeech Recognition	CodeCode Available
Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition	May 3, 2024	Active LearningAutomatic Speech Recognition	—Unverified
Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment	May 2, 2024	GPUNVIDIA Jetson Orin Nano	CodeCode Available
Efficient Compression of Multitask Multilingual Speech Models	May 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Low-resource speech recognition and dialect identification of Irish in a multi-task framework	May 2, 2024	DecoderDialect Identification	—Unverified
Improving Membership Inference in ASR Model Auditing with Perturbed Loss Features	May 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequence-to-sequence models in peer-to-peer learning: A practical application	May 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Efficient Sample-Specific Encoder Perturbations	May 1, 2024	AttributeDecoder	—Unverified
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition	May 1, 2024	Active LearningEmotion Recognition	CodeCode Available
Does Whisper understand Swiss German? An automatic, qualitative, and human evaluation	Apr 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification	Apr 29, 2024	ClassificationGender Classification	—Unverified
A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system	Apr 29, 2024	speech-recognitionSpeech Recognition	—Unverified
Child Speech Recognition in Human-Robot Interaction: Problem Solved?	Apr 26, 2024	GPUspeech-recognition	—Unverified
Developing Acoustic Models for Automatic Speech Recognition in Swedish	Apr 25, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified
Automatic Speech Recognition System-Independent Word Error Rate Estimation	Apr 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF	Apr 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices	Apr 24, 2024	Automatic Speech RecognitionCPU	—Unverified
Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance	Apr 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information	Apr 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Breaking Walls: Pioneering Automatic Speech Recognition for Central Kurdish: End-to-End Transformer Paradigm	Apr 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks	Apr 22, 2024	speech-recognitionSpeech Recognition	CodeCode Available
Semantically Corrected Amharic Automatic Speech Recognition	Apr 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Efficient infusion of self-supervised representations in Automatic Speech Recognition	Apr 19, 2024	Automatic Speech RecognitionDecoder	—Unverified
Learn2Talk: 3D Talking Face Learns from 2D Talking Face	Apr 19, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech	Apr 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training	Apr 16, 2024	Language ModelingLanguage Modelling	CodeCode Available
Anatomy of Industrial Scale Multilingual ASR	Apr 15, 2024	AnatomyAutomatic Speech Recognition	—Unverified
Resilience of Large Language Models for Noisy Instructions	Apr 15, 2024	Automatic Speech RecognitionOptical Character Recognition	—Unverified
Automatic Speech Recognition Advancements for Indigenous Languages of the Americas	Apr 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task	Apr 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution	Apr 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 29 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified