Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2651–2700 of 6433 papers

Title	Date	Tasks	Status	Hype
ICASSP 2022 Acoustic Echo Cancellation Challenge	Feb 27, 2022	Acoustic echo cancellationSpeech Enhancement	CodeCode Available	2
Integrating Text Inputs For Training and Adapting RNN Transducer ASR Models	Feb 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Visual Speech Recognition for Multiple Languages in the Wild	Feb 26, 2022	Hyperparameter OptimizationLipreading	CodeCode Available	2
A Survey of Multilingual Models for Automatic Speech Recognition	Feb 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR	Feb 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Ask2Mask: Guided Data Selection for Masked Speech Modeling	Feb 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Towards Better Meta-Initialization with Task Augmentation for Kindergarten-aged Speech Recognition	Feb 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Closing the Gap between Single-User and Multi-User VoiceFilter-Lite	Feb 24, 2022	Speaker Verificationspeech-recognition	—Unverified	0
Differentially Private Speaker Anonymization	Feb 23, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Korean Tokenization for Beam Search Rescoring in Speech Recognition	Feb 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving CTC-based speech recognition via knowledge transferring from pre-trained language models	Feb 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
VADOI:Voice-Activity-Detection Overlapping Inference For End-to-end Long-form Speech Recognition	Feb 22, 2022	Action DetectionActivity Detection	—Unverified	0
FlowSense: Monitoring Airflow in Building Ventilation Systems Using Audio Sensing	Feb 22, 2022	Privacy Preservingspeech-recognition	CodeCode Available	0
Adversarial Attacks on Speech Recognition Systems for Mission-Critical Applications: A Survey	Feb 22, 2022	Adversarial AttackBIG-bench Machine Learning	—Unverified	0
Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments	Feb 21, 2022	Data AugmentationPhoneme Recognition	CodeCode Available	0
r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme Conversion by Controlled noise introducing and Contextual information incorporation	Feb 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
The PCG-AIID System for L3DAS22 Challenge: MIMO and MISO convolutional recurrent Network for Multi Channel Speech Enhancement and Speech Recognition	Feb 21, 2022	DenoisingSpeech Denoising	—Unverified	0
Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition	Feb 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SemEval 2022 Task 12: Symlink- Linking Mathematical Symbols to their Descriptions	Feb 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Domain Adaptation of low-resource Target-Domain models using well-trained ASR Conformer Models	Feb 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system	Feb 18, 2022	Decoderspeech-recognition	—Unverified	0
'Beach' to 'Bitch': Inadvertent Unsafe Transcription of Kids' Content on YouTube	Feb 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Mitigating Closed-model Adversarial Examples with Bayesian Neural Modeling for Enhanced End-to-End Speech Recognition	Feb 17, 2022	Adversarial RobustnessAutomatic Speech Recognition	—Unverified	0
MLP-ASR: Sequence-length agnostic all-MLP architectures for speech recognition	Feb 17, 2022	AllAutomatic Speech Recognition	—Unverified	0
Curriculum optimization for low-resource speech recognition	Feb 17, 2022	speech-recognitionSpeech Recognition	—Unverified	0
AISHELL-NER: Named Entity Recognition from Chinese Speech	Feb 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Conversational Speech Recognition By Learning Conversation-level Characteristics	Feb 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Knowledge Transfer from Large-scale Pretrained Language Models to End-to-end Speech Recognizers	Feb 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ADIMA: Abuse Detection In Multilingual Audio	Feb 16, 2022	Abuse DetectionAutomatic Speech Recognition	CodeCode Available	0
Multi-style Training for South African Call Centre Audio	Feb 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified	0
Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference	Feb 14, 2022	Quantizationspeech-recognition	—Unverified	0
Saving RNN Computations with a Neuron-Level Fuzzy Memoization Scheme	Feb 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multimodal Depression Classification Using Articulatory Coordination Features And Hierarchical Attention Based Text Embeddings	Feb 13, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder	Feb 12, 2022	DecoderLanguage Modeling	—Unverified	0
Ultra-low Power Always-on Intelligent and Connected SNN-based System for Multimedia IoT-enabled Applications	Feb 10, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding	Feb 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
The Volcspeech system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge	Feb 9, 2022	Data AugmentationLanguage Modelling	—Unverified	0
Enhancing ASR for Stuttered Speech with Limited Data Using Detect and Pass	Feb 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A two-step approach to leverage contextual data: speech recognition in air-traffic communications	Feb 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition	Feb 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
T-NGA: Temporal Network Grafting Algorithm for Learning to Process Spiking Audio Sensor Events	Feb 7, 2022	speech-recognitionSpeech Recognition	—Unverified	0
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language	Feb 7, 2022	image-classificationImage Classification	CodeCode Available	1
The CUHK-TENCENT speaker diarization system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge	Feb 4, 2022	Action DetectionActivity Detection	—Unverified	0
Polyphonic pitch detection with convolutional recurrent neural networks	Feb 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified	0
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-supervised Learning with Random-projection Quantizer for Speech Recognition	Feb 3, 2022	Self-Supervised Learningspeech-recognition	CodeCode Available	1
Streaming Multi-Talker ASR with Token-Level Serialized Output Training	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1

Show:10 25 50

← PrevPage 54 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified