Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 6433 papers

Title	Date	Tasks	Status
Transformer Based Punctuation Restoration for Turkish	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Chunked Attention-based Encoder-Decoder Model for Streaming Speech Recognition	Sep 15, 2023	DecoderForm	—Unverified
The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction	Sep 15, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Towards Universal Speech Discrete Tokens: A Case Study for ASR and TTS	Sep 14, 2023	Self-Supervised Learningspeech-recognition	—Unverified
Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks	Sep 14, 2023	DecoderLanguage Modeling	—Unverified
Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer	Sep 14, 2023	Language ModelingLanguage Modelling	—Unverified
CPPF: A contextual and post-processing-free model for automatic speech recognition	Sep 14, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation	Sep 14, 2023	Automatic Speech RecognitionDecoder	—Unverified
Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks	Sep 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders	Sep 14, 2023	Contrastive LearningKnowledge Distillation	—Unverified
Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition	Sep 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Open-vocabulary Keyword-spotting with Adaptive Instance Normalization	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Can Whisper perform speech-based in-context learning?	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults	Sep 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Co-learning synaptic delays, weights and adaptation in spiking neural networks	Sep 12, 2023	speech-recognitionSpeech Recognition	—Unverified
Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion	Sep 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Minuteman: Machine and Human Joining Forces in Meeting Summarization	Sep 11, 2023	Meeting Summarizationspeech-recognition	—Unverified
Leveraging Large Language Models for Exploiting ASR Uncertainty	Sep 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Speech Recognition and Disfluency Removal with Acoustic Language Model Pretraining	Sep 8, 2023	Language ModelingLanguage Modelling	CodeCode Available
Active Learning for Classifying 2D Grid-Based Level Completability	Sep 8, 2023	Active Learningspeech-recognition	CodeCode Available
Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation	Sep 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems	Sep 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified
Self-Supervised Masked Digital Elevation Models Encoding for Low-Resource Downstream Tasks	Sep 6, 2023	Self-Supervised Learningspeech-recognition	—Unverified
RoDia: A New Dataset for Romanian Dialect Identification from Speech	Sep 6, 2023	Dialect IdentificationSpeaker Verification	CodeCode Available
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition	Sep 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models	Sep 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AVATAR: Robust Voice Search Engine Leveraging Autoregressive Document Retrieval and Contrastive Learning	Sep 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation	Sep 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge	Sep 4, 2023	Domain Generalizationspeech-recognition	—Unverified
Mapping AI Arguments in Journalism Studies	Sep 3, 2023	Schedulingspeech-recognition	—Unverified
Learning Speech Representation From Contrastive Token-Acoustic Pretraining	Sep 1, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified
Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating Speech Recognition Models like OpenAI's Whisper	Sep 1, 2023	speech-recognitionSpeech Recognition	—Unverified
Contextual Biasing of Named-Entities with Large Language Models	Sep 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer	Aug 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Wikimedia: A 77 Language Multilingual Speech Dataset	Aug 30, 2023	Machine Translationspeech-recognition	CodeCode Available
ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers	Aug 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adapting Text-based Dialogue State Tracker for Spoken Dialogues	Aug 29, 2023	Automatic Speech RecognitionData Augmentation	—Unverified
Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition	Aug 28, 2023	Active LearningAutomatic Speech Recognition	—Unverified
The USTC-NERCSLIP Systems for the CHiME-7 DASR Challenge	Aug 28, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Neural approaches to spoken content embedding	Aug 28, 2023	Automatic Speech RecognitionDynamic Time Warping	—Unverified
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks	Aug 28, 2023	Speech Recognition	CodeCode Available
Decoupled Structure for Improved Adaptability of End-to-End Models	Aug 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Small and Fast BERT for Chinese Medical Punctuation Restoration	Aug 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion	Aug 24, 2023	Audio ClassificationBinary Classification	—Unverified
AdVerb: Visually Guided Audio Dereverberation	Aug 23, 2023	Speaker VerificationSpeech Enhancement	—Unverified
KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods	Aug 23, 2023	Robust Speech Recognitionspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 37 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified