Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2251–2300 of 6433 papers

Title	Date	Tasks	Status
Connecting Humanities and Social Sciences: Applying Language and Speech Technology to Online Panel Surveys	Feb 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An ASR-free Fluency Scoring Approach with Self-Supervised Learning	Feb 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End Speech Recognition	Feb 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Optimization Methods in Deep Learning: A Comprehensive Overview	Feb 19, 2023	Deep Learningspeech-recognition	—Unverified
Speaker and Language Change Detection using Wav2vec2 and Whisper	Feb 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Front-End Adapter: Adapting Front-End Input of Speech based Self-Supervised Learning for Speech Recognition	Feb 18, 2023	Self-Supervised Learningspeech-recognition	—Unverified
Massively Multilingual Shallow Fusion with Large Language Models	Feb 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Measuring Equality in Machine Learning Security Defenses: A Case Study in Speech Recognition	Feb 17, 2023	Adversarial RobustnessFairness	—Unverified
Speaker Change Detection for Transformer Transducer ASR	Feb 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition	Feb 16, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified
Adaptable End-to-End ASR Models using Replaceable Internal LMs and Residual Softmax	Feb 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition	Feb 16, 2023	Language ModelingLanguage Modelling	—Unverified
Stabilising and accelerating light gated recurrent units for automatic speech recognition	Feb 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
Confidence Score Based Speaker Adaptation of Conformer Speech Recognition Systems	Feb 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input Noises	Feb 14, 2023	Data AugmentationFairness	CodeCode Available
Sneaky Spikes: Uncovering Stealthy Backdoor Attacks in Spiking Neural Networks with Neuromorphic Data	Feb 13, 2023	Event-based visionGesture Recognition	CodeCode Available
ASR Bundestag: A Large-Scale political debate dataset in German	Feb 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASDF: A Differential Testing Framework for Automatic Speech Recognition Systems	Feb 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction	Feb 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Leveraging supplementary text data to kick-start automatic speech recognition system development with limited transcriptions	Feb 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LUT-NN: Empower Efficient Neural Network Inference with Centroid Learning and Table Lookup	Feb 7, 2023	Efficient Neural Networkspeech-recognition	—Unverified
MAC: A unified framework boosting low resource automatic speech recognition	Feb 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Efficient Domain Adaptation for Speech Foundation Models	Feb 3, 2023	DecoderDomain Adaptation	—Unverified
Improving Rare Words Recognition through Homophone Extension and Unified Writing for Low-resource Cantonese Speech Recognition	Feb 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring Attention Map Reuse for Efficient Transformer Neural Networks	Jan 29, 2023	CPUGPU	—Unverified
Fillers in Spoken Language Understanding: Computational and Psycholinguistic Perspectives	Jan 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons	Jan 24, 2023	Binary ClassificationKeyword Spotting	—Unverified
Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a Case Study	Jan 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Regeneration Learning: A Learning Paradigm for Data Generation	Jan 21, 2023	Image GenerationRepresentation Learning	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Language Agnostic Data-Driven Inverse Text Normalization	Jan 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural Architecture Search: Insights from 1000 Papers	Jan 20, 2023	Natural Language UnderstandingNeural Architecture Search	CodeCode Available
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition	Jan 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining	Jan 18, 2023	speech-recognitionSpeech Recognition	—Unverified
Syllable Subword Tokens for Open Vocabulary Speech Recognition in Malayalam	Jan 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Using Kaldi for Automatic Speech Recognition of Conversational Austrian German	Jan 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BayesSpeech: A Bayesian Transformer Network for Automatic Speech Recognition	Jan 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-resolution location-based training for multi-channel continuous speech separation	Jan 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Rationalizing Predictions by Adversarial Information Calibration	Jan 15, 2023	Language ModellingPrediction	—Unverified
Streaming Punctuation: A Novel Punctuation Technique Leveraging Bidirectional Context for Continuous Speech Recognition	Jan 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FullStop:Punctuation and Segmentation Prediction for Dutch with Transformers	Jan 9, 2023	Language ModellingMachine Translation	—Unverified
Equivariant and Steerable Neural Networks: A review with special emphasis on the symmetric group	Jan 8, 2023	speech-recognitionSpeech Recognition	—Unverified
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition	Jan 6, 2023	Domain AdaptationGPU	—Unverified
Supervised Acoustic Embeddings And Their Transferability Across Languages	Jan 3, 2023	speech-recognitionSpeech Recognition	CodeCode Available
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in the HYKIST Project	Jan 1, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 46 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified