Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 153 papers

Title	Date	Tasks	Status
Synthesising 3D Facial Motion from "In-the-Wild" Speech	Apr 15, 2019	Lip ReadingMotion Synthesis	—Unverified
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
Towards Estimating the Upper Bound of Visual-Speech Recognition: The Visual Lip-Reading Feasibility Database	Apr 26, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified
Towards Pose-invariant Lip-Reading	Nov 14, 2019	Lip Reading	—Unverified
VALLR: Visual ASR Language Model for Lip Reading	Mar 27, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified
VCSE: Time-Domain Visual-Contextual Speaker Extraction Network	Oct 9, 2022	Lip Reading	—Unverified
Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories	Mar 23, 2015	Action RecognitionGeneral Classification	—Unverified
Visual Passwords Using Automatic Lip Reading	Sep 2, 2014	Lip Reading	—Unverified
VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis	Jul 8, 2025	Automatic Speech RecognitionLip Reading	—Unverified
Visual Speech Recognition	Sep 3, 2014	Audio-Visual Speech RecognitionLip Reading	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Visual Words for Automatic Lip-Reading	Sep 17, 2014	Lip Readingspeech-recognition	—Unverified
Which phoneme-to-viseme maps best improve visual-only computer lip-reading?	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
Word-level Persian Lipreading Dataset	Apr 8, 2023	LipreadingLip Reading	—Unverified
Neuromorphic Facial Analysis with Cross-Modal Supervision	Sep 16, 2024	Lip Reading	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized Perception with Neural Sensors	Apr 11, 2023	Gesture RecognitionHand Gesture Recognition	—Unverified
Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading	Mar 9, 2020	LipreadingLip Reading	—Unverified
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified
RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views	Sep 9, 2024	LipreadingLip Reading	—Unverified
Realistic Speech-Driven Facial Animation with GANs	Jun 14, 2019	Audio-Visual SynchronizationLip Reading	—Unverified
Resolution limits on visual speech recognition	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion	Mar 13, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Re-synchronization using the Hand Preceding Model for Multi-modal Fusion in Automatic Continuous Cued Speech Recognition	Feb 23, 2020	Lip ReadingPhoneme Recognition	—Unverified
Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach	Jun 2, 2024	Lip ReadingMulti-Task Learning	—Unverified
A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading	Aug 14, 2019	LipreadingLip Reading	—Unverified
Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision	Apr 29, 2020	Lip ReadingSelf-Supervised Learning	—Unverified
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory	Aug 31, 2021	Lip Reading	—Unverified
Some observations on computer lip-reading: moving from the dream to the reality	Oct 3, 2017	Lip Reading	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Spatio-Temporal Fusion Based Convolutional Sequence Learning for Lip Reading	Oct 1, 2019	LipreadingLip Reading	—Unverified
Spatio-temporal Transformers for Action Unit Classification with Event Cameras	Oct 29, 2024	Lip Reading	—Unverified
MTGA: Multi-View Temporal Granularity Aligned Aggregation for Event-Based Lip-Reading	Apr 18, 2024	Lip Reading	CodeCode Available
Multi-Perspective LSTM for Joint Visual Representation Learning	May 6, 2021	Face RecognitionLip Reading	CodeCode Available
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available
Lip Sync Matters: A Novel Multimodal Forgery Detector	Nov 7, 2022	DeepFake DetectionFace Swapping	CodeCode Available
Talking Face Generation by Adversarially Disentangled Audio-Visual Representation	Jul 20, 2018	Face GenerationLip Reading	CodeCode Available
Lip2AudSpec: Speech reconstruction from silent lip movements video	Oct 26, 2017	Lip Reading	CodeCode Available
Lend a Hand: Semi Training-Free Cued Speech Recognition via MLLM-Driven Hand Modeling for Barrier-free Communication	Mar 11, 2025	Lip ReadingPrompt Engineering	CodeCode Available
Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers	Nov 26, 2019	Knowledge DistillationLipreading	CodeCode Available
Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading	Oct 8, 2023	Lip Reading	CodeCode Available
Estimating speech from lip dynamics	Aug 3, 2017	Lip ReadingPosition	CodeCode Available
DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation	Nov 8, 2023	Lip Reading	CodeCode Available
Combining Residual Networks with LSTMs for Lipreading	Mar 12, 2017	LipreadingLip Reading	CodeCode Available
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available
XFlow: Cross-modal Deep Neural Networks for Audiovisual Classification	Sep 2, 2017	ClassificationGeneral Classification	CodeCode Available
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	CodeCode Available
A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus	Jun 5, 2023	Lip Reading	CodeCode Available
Synchronous Bidirectional Learning for Multilingual Lip Reading	May 8, 2020	Lip Reading	CodeCode Available

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified