Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 153 papers

Title	Date	Tasks	Status	Hype
Lipreading using Temporal Convolutional Networks	Jan 23, 2020	LipreadingLip Reading	CodeCode Available	1
OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset	Jan 16, 2023	Audio-Visual Speech RecognitionLip Reading	CodeCode Available	1
Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video	Apr 4, 2022	Lip Reading	CodeCode Available	1
LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading	Jun 5, 2023	Lip Reading	CodeCode Available	1
Lip-reading with Densely Connected Temporal Convolutional Networks	Sep 29, 2020	Lip Reading	CodeCode Available	1
End-to-End Speech-Driven Facial Animation with Temporal GANs	May 23, 2018	Lip Reading	CodeCode Available	1
Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading	Feb 18, 2024	LipreadingLip Reading	—Unverified	0
Contrastive Self-Supervised Learning of Global-Local Audio-Visual Representations	Jan 1, 2021	ClassificationDeepFake Detection	—Unverified	0
An Empirical Analysis of Deep Audio-Visual Models for Speech Recognition	Dec 21, 2018	Lip ReadingSensitivity	—Unverified	0
Contrastive Learning of Global and Local Video Representations	Dec 1, 2021	ClassificationContrastive Learning	—Unverified	0
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified	0
Contextual Audio-Visual Switching For Speech Enhancement in Real-World Environments	Aug 28, 2018	Lip ReadingSpeech Enhancement	—Unverified	0
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition	Jan 31, 2024	Lip Readingspeech-recognition	—Unverified	0
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified	0
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation	Oct 24, 2022	Action RecognitionLip Reading	—Unverified	0
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks	Apr 27, 2021	Lip ReadingSpeech Synthesis	—Unverified	0
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Facetron: A Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations	Jul 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Finding phonemes: improving machine lip-reading	Oct 3, 2017	Lip ReadingPhoneme Recognition	—Unverified	0
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified	0
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder	Apr 8, 2024	LipreadingLip Reading	—Unverified	0
Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert	Jul 1, 2024	Lip Reading	—Unverified	0
Emotional Speech-Driven Animation with Content-Emotion Disentanglement	Jun 15, 2023	DisentanglementLip Reading	—Unverified	0

Show:10 25 50

← PrevPage 2 of 7Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified