Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 153 papers

Title	Date	Tasks	Status
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder	Apr 8, 2024	LipreadingLip Reading	—Unverified
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization	Mar 24, 2024	Lip Reading	—Unverified
Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading	Feb 18, 2024	LipreadingLip Reading	—Unverified
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition	Jan 31, 2024	Lip Readingspeech-recognition	—Unverified
Exploring Lip Segmentation Techniques in Computer Vision: A Comparative Analysis	Nov 20, 2023	Edge-computingLip Reading	—Unverified
DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation	Nov 8, 2023	Lip Reading	CodeCode Available
Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading	Oct 8, 2023	Lip Reading	CodeCode Available
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge	Aug 18, 2023	Lip Reading	—Unverified
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping	Aug 11, 2023	Lip Readingspeech-recognition	—Unverified
Leveraging Visemes for Better Visual Speech Representation and Lip Reading	Jul 19, 2023	Lip ReadingSentence	—Unverified
Emotional Speech-Driven Animation with Content-Emotion Disentanglement	Jun 15, 2023	DisentanglementLip Reading	—Unverified
A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus	Jun 5, 2023	Lip Reading	CodeCode Available
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified
PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized Perception with Neural Sensors	Apr 11, 2023	Gesture RecognitionHand Gesture Recognition	—Unverified
Word-level Persian Lipreading Dataset	Apr 8, 2023	LipreadingLip Reading	—Unverified
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
A large-scale multimodal dataset of human speech recognition	Mar 15, 2023	Lip ReadingMotion Detection	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model	Jan 10, 2023	DenoisingFace Model	—Unverified
Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss	Nov 20, 2022	Face HallucinationGenerative Adversarial Network	—Unverified
Lip Sync Matters: A Novel Multimodal Forgery Detector	Nov 7, 2022	DeepFake DetectionFace Swapping	CodeCode Available
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation	Oct 24, 2022	Action RecognitionLip Reading	—Unverified
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified
VCSE: Time-Domain Visual-Contextual Speaker Extraction Network	Oct 9, 2022	Lip Reading	—Unverified
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	CodeCode Available
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified
Speaker-adaptive Lip Reading with User-dependent Padding	Aug 9, 2022	Lip Readingspeech-recognition	CodeCode Available
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
Learning Speaker-specific Lip-to-Speech Generation	Jun 4, 2022	DecoderLip Reading	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Expression-preserving face frontalization improves visually assisted speech processing	Apr 6, 2022	Face ModelLip Reading	—Unverified
A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning	Feb 27, 2022	Lip ReadingTransfer Learning	—Unverified
Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading	Jan 1, 2022	Action RecognitionLip Reading	—Unverified
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified
Audio-Visual Synchronisation in the wild	Dec 8, 2021	Lip Reading	—Unverified
Contrastive Learning of Global and Local Video Representations	Dec 1, 2021	ClassificationContrastive Learning	—Unverified
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory	Aug 31, 2021	Lip Reading	—Unverified
Adaptive Semantic-Spatio-Temporal Graph Convolutional Network for Lip Reading	Aug 16, 2021	Landmark-based LipreadingLip Reading	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified