Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 182 papers

Title	Date	Tasks	Status
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge	Mar 11, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning	Dec 10, 2022	Audio-Visual Speech Recognitionreinforcement-learning	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands	Jul 6, 2022	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified