Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 153 papers

Title	Date	Tasks	Status
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition	Jan 8, 2025	Lip Readingspeech-recognition	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
Lip-Reading Driven Deep Learning Approach for Speech Enhancement	Jul 31, 2018	Acoustic ModellingDeep Learning	—Unverified
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge	Aug 18, 2023	Lip Reading	—Unverified
Lip Reading Sentences in the Wild	Nov 16, 2016	LipreadingLip Reading	—Unverified
Lip Reading Using Convolutional Auto Encoders as Feature Extractor	May 31, 2018	ClassificationGeneral Classification	—Unverified
Lip reading using external viseme decoding	Apr 10, 2021	Lip Reading	—Unverified
Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention	Dec 28, 2020	Lip Reading	—Unverified
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified
LiRA: Learning Visual Speech Representations from Audio through Self-supervision	Jun 16, 2021	Lip ReadingSelf-Supervised Learning	—Unverified
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified
Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading	Jan 1, 2022	Action RecognitionLip Reading	—Unverified
Multi-Grained Spatio-temporal Modeling for Lip-reading	Aug 30, 2019	LipreadingLip Reading	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Adaptive Semantic-Spatio-Temporal Graph Convolutional Network for Lip Reading	Aug 16, 2021	Landmark-based LipreadingLip Reading	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
A large-scale multimodal dataset of human speech recognition	Mar 15, 2023	Lip ReadingMotion Detection	—Unverified
A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning	Feb 27, 2022	Lip ReadingTransfer Learning	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
An Empirical Analysis of Deep Audio-Visual Models for Speech Recognition	Dec 21, 2018	Lip ReadingSensitivity	—Unverified
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified
ASR is all you need: cross-modal distillation for lip reading	Nov 28, 2019	AllAutomatic Speech Recognition	—Unverified
A Study on Lip Localization Techniques used for Lip reading from a Video	Sep 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio-Visual Synchronisation in the wild	Dec 8, 2021	Lip Reading	—Unverified
Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss	Nov 20, 2022	Face HallucinationGenerative Adversarial Network	—Unverified
Automatic Viseme Vocabulary Construction to Enhance Continuous Lip-reading	Apr 26, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model	Apr 30, 2024	DescriptiveGesture Generation	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation	Oct 24, 2022	Action RecognitionLip Reading	—Unverified
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition	Jan 31, 2024	Lip Readingspeech-recognition	—Unverified
Contextual Audio-Visual Switching For Speech Enhancement in Real-World Environments	Aug 28, 2018	Lip ReadingSpeech Enhancement	—Unverified
Contrastive Learning of Global and Local Video Representations	Dec 1, 2021	ClassificationContrastive Learning	—Unverified
Contrastive Self-Supervised Learning of Global-Local Audio-Visual Representations	Jan 1, 2021	ClassificationDeepFake Detection	—Unverified
Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading	Feb 18, 2024	LipreadingLip Reading	—Unverified
Decoding visemes: improving machine lipreading	Oct 3, 2017	ClassificationGeneral Classification	—Unverified
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified
Deep Learning for Lip Reading using Audio-Visual Information for Urdu Language	Feb 15, 2018	Lip Readingspeech-recognition	—Unverified
Deep Lip Reading: a comparison of models and an online application	Jun 15, 2018	Language ModelingLanguage Modelling	—Unverified
Definition of Visual Speech Element and Research on a Method of Extracting Feature Vector for Korean Lip-Reading	Nov 15, 2014	Lip Reading	—Unverified
Development and evaluation of a deep learning algorithm for German word recognition from lip movements	Apr 22, 2025	Lip Readingspeech-recognition	—Unverified
Disentangling Homophemes in Lip Reading using Perplexity Analysis	Nov 28, 2020	Language ModelingLanguage Modelling	—Unverified
Speaker-independent machine lip-reading with speaker-dependent viseme classifiers	Oct 3, 2017	ClusteringLip Reading	—Unverified
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model	Jan 10, 2023	DenoisingFace Model	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified