Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 182 papers

Title	Date	Tasks	Status
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge	Jun 14, 2024	speech-recognitionSpeech Recognition	—Unverified
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Combining Multiple Views for Visual Speech Recognition	Oct 19, 2017	Sentencespeech-recognition	—Unverified
Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition	Feb 20, 2024	Decoderspeech-recognition	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Continuous Speech Recognition using EEG and Video	Dec 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified
Deep Lip Reading: a comparison of models and an online application	Jun 15, 2018	Language ModelingLanguage Modelling	—Unverified
Deep Multimodal Learning for Audio-Visual Speech Recognition	Jan 22, 2015	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Deep Multimodal Representation Learning from Temporal Data	Apr 11, 2017	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified
End-to-End Visual Speech Recognition for Small-Scale Datasets	Apr 2, 2019	General Classificationspeech-recognition	—Unverified
End-To-End Visual Speech Recognition With LSTMs	Jan 20, 2017	ClassificationGeneral Classification	—Unverified
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fusing information streams in end-to-end audio-visual speech recognition	Apr 19, 2021	Audio-Visual Speech RecognitionLip Reading	—Unverified
Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning	May 23, 2023	Metric Learningspeech-recognition	—Unverified
Interactive decoding of words from visual speech recognition models	Jul 1, 2021	Positionspeech-recognition	—Unverified
Investigating the Lombard Effect Influence on End-to-End Audio-Visual Speech Recognition	Jun 5, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified
Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands	Jul 6, 2022	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Uncovering the Visual Contribution in Audio-Visual Speech Recognition	Dec 22, 2024	Audio-Visual Speech RecognitionInformativeness	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition	Jun 5, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories	Mar 23, 2015	Action RecognitionGeneral Classification	—Unverified
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Visual-Only Recognition of Normal, Whispered and Silent Speech	Feb 18, 2018	Silent Speech Recognitionspeech-recognition	—Unverified
VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis	Jul 8, 2025	Automatic Speech RecognitionLip Reading	—Unverified
Visual Speech Recognition	Sep 3, 2014	Audio-Visual Speech RecognitionLip Reading	—Unverified
Visual speech recognition: aligning terminologies for better understanding	Oct 3, 2017	Lipreadingspeech-recognition	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Visual Speech Recognition Using PCA Networks and LSTMs in a Tandem GMM-HMM System	Oct 19, 2017	Sentencespeech-recognition	—Unverified
Visual Words for Automatic Lip-Reading	Sep 17, 2014	Lip Readingspeech-recognition	—Unverified
Which phoneme-to-viseme maps best improve visual-only computer lip-reading?	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception	Mar 21, 2024	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified