Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 6433 papers

Title	Date	Tasks	Status	Hype
Improving Perceptual Quality, Intelligibility, and Acoustics on VoIP Platforms	Mar 16, 2023	Multi-Task LearningSpeech Enhancement	—Unverified	0
Trustera: A Live Conversation Redaction System	Mar 16, 2023	Automatic Speech RecognitionNatural Language Understanding	—Unverified	0
DistillW2V2: A Small and Streaming Wav2vec 2.0 Based ASR Model	Mar 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A large-scale multimodal dataset of human speech recognition	Mar 15, 2023	Lip ReadingMotion Detection	—Unverified	0
Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences	Mar 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
HYBRIDFORMER: improving SqueezeFormer with hybrid attention and NSR mechanism	Mar 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring	Mar 15, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech Recognition Models	Mar 15, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Improving Accented Speech Recognition with Multi-Domain Training	Mar 14, 2023	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy	Mar 14, 2023	PositionSentence	—Unverified	0
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition	Mar 14, 2023	Model Compressionspeech-recognition	CodeCode Available	0
Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition Model	Mar 13, 2023	Decision MakingScene Text Recognition	—Unverified	0
Improving the Intent Classification accuracy in Noisy Environment	Mar 12, 2023	Automatic Speech RecognitionClassification	—Unverified	0
Fine-tuning Strategies for Faster Inference using Speech Self-Supervised Models: A Comparative Study	Mar 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge	Mar 11, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
Stabilizing Transformer Training by Preventing Attention Entropy Collapse	Mar 11, 2023	Automatic Speech Recognitionimage-classification	CodeCode Available	2
Transcription free filler word detection with Neural semi-CRFs	Mar 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems	Mar 10, 2023	Adversarial AttackAutomatic Speech Recognition	—Unverified	0
Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings	Mar 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
An Overview on Language Models: Recent Developments and Outlook	Mar 10, 2023	Language ModelingLanguage Modelling	—Unverified	0
Unsupervised Language agnostic WER Standardization	Mar 9, 2023	speech-recognitionSpeech Recognition	—Unverified	0
DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks	Mar 8, 2023	Fault Detectionspeech-recognition	CodeCode Available	0
TS-SEP: Joint Diarization and Separation Conditioned on Estimated Speaker Embeddings	Mar 7, 2023	Action DetectionActivity Detection	CodeCode Available	1
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts	Mar 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Calibrating Transformers via Sparse Gaussian Processes	Mar 4, 2023	Bayesian InferenceGaussian Processes	CodeCode Available	1
End-to-End Speech Recognition: A Survey	Mar 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Pre-trained Model Representations and their Robustness against Noise for Speech Emotion Analysis	Mar 3, 2023	Emotion RecognitionKnowledge Distillation	—Unverified	0
SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks	Mar 3, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Leveraging Large Text Corpora for End-to-End Speech Summarization	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme conversion	Mar 2, 2023	Grapheme-to-Phoneme Conversionspeech-recognition	—Unverified	0
Synthetic Cross-accent Data Augmentation for Automatic Speech Recognition	Mar 1, 2023	Automatic Speech RecognitionData Augmentation	—Unverified	0
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space	Mar 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation	Mar 1, 2023	Audio-Visual Speech RecognitionRobust Speech Recognition	CodeCode Available	2
Leveraging Redundancy in Multiple Audio Signals for Far-Field Speech Recognition	Mar 1, 2023	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified	0
Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English	Feb 28, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition	Feb 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition	Feb 28, 2023	speech-recognitionSpeech Recognition	—Unverified	0
A Token-Wise Beam Search Algorithm for RNN-T	Feb 28, 2023	speech-recognitionSpeech Recognition	—Unverified	0
BrainBERT: Self-supervised representation learning for intracranial recordings	Feb 28, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Diagonal State Space Augmented Transformers for Speech Recognition	Feb 27, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Diacritic Recognition Performance in Arabic ASR	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Explanations for Automatic Speech Recognition	Feb 27, 2023	Automatic Speech RecognitionExplainable Artificial Intelligence (XAI)	—Unverified	0
Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Structured Pruning of Self-Supervised Pre-trained Models for Speech Recognition and Understanding	Feb 27, 2023	Model CompressionRepresentation Learning	CodeCode Available	1
MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multimodal Speech Recognition for Language-Guided Embodied Agents	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 37 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified