Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2201–2250 of 6433 papers

Title	Date	Tasks	Status
Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy	Mar 14, 2023	PositionSentence	—Unverified
Improving Accented Speech Recognition with Multi-Domain Training	Mar 14, 2023	Accented Speech RecognitionAutomatic Speech Recognition	—Unverified
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition	Mar 14, 2023	Model Compressionspeech-recognition	CodeCode Available
Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition Model	Mar 13, 2023	Decision MakingScene Text Recognition	—Unverified
Fine-tuning Strategies for Faster Inference using Speech Self-Supervised Models: A Comparative Study	Mar 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving the Intent Classification accuracy in Noisy Environment	Mar 12, 2023	Automatic Speech RecognitionClassification	—Unverified
Transcription free filler word detection with Neural semi-CRFs	Mar 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge	Mar 11, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
MIXPGD: Hybrid Adversarial Training for Speech Recognition Systems	Mar 10, 2023	Adversarial AttackAutomatic Speech Recognition	—Unverified
Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings	Mar 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Overview on Language Models: Recent Developments and Outlook	Mar 10, 2023	Language ModelingLanguage Modelling	—Unverified
Unsupervised Language agnostic WER Standardization	Mar 9, 2023	speech-recognitionSpeech Recognition	—Unverified
DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks	Mar 8, 2023	Fault Detectionspeech-recognition	CodeCode Available
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts	Mar 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks	Mar 3, 2023	speech-recognitionSpeech Recognition	—Unverified
Pre-trained Model Representations and their Robustness against Noise for Speech Emotion Analysis	Mar 3, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
End-to-End Speech Recognition: A Survey	Mar 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme conversion	Mar 2, 2023	Grapheme-to-Phoneme Conversionspeech-recognition	—Unverified
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Large Text Corpora for End-to-End Speech Summarization	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Synthetic Cross-accent Data Augmentation for Automatic Speech Recognition	Mar 1, 2023	Automatic Speech RecognitionData Augmentation	—Unverified
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space	Mar 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Redundancy in Multiple Audio Signals for Far-Field Speech Recognition	Mar 1, 2023	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English	Feb 28, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition	Feb 28, 2023	speech-recognitionSpeech Recognition	—Unverified
Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition	Feb 28, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Token-Wise Beam Search Algorithm for RNN-T	Feb 28, 2023	speech-recognitionSpeech Recognition	—Unverified
A Comparison of Speech Data Augmentation Methods Using S3PRL Toolkit	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Diagonal State Space Augmented Transformers for Speech Recognition	Feb 27, 2023	speech-recognitionSpeech Recognition	—Unverified
Diacritic Recognition Performance in Arabic ASR	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech Recognition	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Explanations for Automatic Speech Recognition	Feb 27, 2023	Automatic Speech RecognitionExplainable Artificial Intelligence (XAI)	—Unverified
Multimodal Speech Recognition for Language-Guided Embodied Agents	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Efficient Ensemble for Multimodal Punctuation Restoration using Time-Delay Neural Network	Feb 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech Corpora Divergence Based Unsupervised Data Selection for ASR	Feb 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
From Audio to Symbolic Encoding	Feb 26, 2023	Information RetrievalMusic Information Retrieval	—Unverified
Chaotic Variational Auto encoder-based Adversarial Machine Learning	Feb 25, 2023	speech-recognitionSpeech Recognition	—Unverified
Ensemble knowledge distillation of self-supervised speech models	Feb 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pre-Finetuning for Few-Shot Emotional Speech Recognition	Feb 24, 2023	Few-Shot Learningspeech-recognition	CodeCode Available
Improving Massively Multilingual ASR With Auxiliary CTC Objectives	Feb 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Factual Consistency Oriented Speech Recognition	Feb 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Generalization of Auto-Regressive Hidden Markov Models to Non-Linear Dynamics and Unit Quaternion Observation Space	Feb 23, 2023	speech-recognitionSpeech Recognition	—Unverified
Evaluating Automatic Speech Recognition in an Incremental Setting	Feb 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Contextual Spelling Correction by External Acoustics Attention and Semantic Aware Data Augmentation	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MADI: Inter-domain Matching and Intra-domain Discrimination for Cross-domain Speech Recognition	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
UML: A Universal Monolingual Output Layer for Multilingual ASR	Feb 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 45 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified