Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 182 papers

Title	Date	Tasks	Status
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge	Jun 14, 2024	speech-recognitionSpeech Recognition	—Unverified
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Combining Multiple Views for Visual Speech Recognition	Oct 19, 2017	Sentencespeech-recognition	—Unverified
Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition	Feb 20, 2024	Decoderspeech-recognition	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Continuous Speech Recognition using EEG and Video	Dec 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified
Deep Lip Reading: a comparison of models and an online application	Jun 15, 2018	Language ModelingLanguage Modelling	—Unverified
Deep Multimodal Learning for Audio-Visual Speech Recognition	Jan 22, 2015	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Deep Multimodal Representation Learning from Temporal Data	Apr 11, 2017	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified