Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 153 papers

Title	Date	Tasks	Status	Hype
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model	Jan 10, 2023	DenoisingFace Model	—Unverified	0
Audio-Visual Efficient Conformer for Robust Speech Recognition	Jan 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss	Nov 20, 2022	Face HallucinationGenerative Adversarial Network	—Unverified	0
Lip Sync Matters: A Novel Multimodal Forgery Detector	Nov 7, 2022	DeepFake DetectionFace Swapping	CodeCode Available	0
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified	0
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation	Oct 24, 2022	Action RecognitionLip Reading	—Unverified	0
VCSE: Time-Domain Visual-Contextual Speaker Extraction Network	Oct 9, 2022	Lip Reading	—Unverified	0
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	—Unverified	0
Training Strategies for Improved Lip-reading	Sep 3, 2022	Data AugmentationLipreading	CodeCode Available	2
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified	0
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified	0
Speaker-adaptive Lip Reading with User-dependent Padding	Aug 9, 2022	Lip Readingspeech-recognition	CodeCode Available	0
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified	0
Learning Speaker-specific Lip-to-Speech Generation	Jun 4, 2022	DecoderLip Reading	—Unverified	0
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
Expression-preserving face frontalization improves visually assisted speech processing	Apr 6, 2022	Face ModelLip Reading	—Unverified	0
Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading	Apr 4, 2022	LipreadingLip Reading	CodeCode Available	1
Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video	Apr 4, 2022	Lip Reading	CodeCode Available	1
A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning	Feb 27, 2022	Lip ReadingTransfer Learning	—Unverified	0
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction	Jan 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading	Jan 1, 2022	Action RecognitionLip Reading	—Unverified	0
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified	0
Audio-Visual Synchronisation in the wild	Dec 8, 2021	Lip Reading	—Unverified	0
Contrastive Learning of Global and Local Video Representations	Dec 1, 2021	ClassificationContrastive Learning	—Unverified	0
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified	0
Visual Keyword Spotting with Attention	Oct 29, 2021	Lip ReadingVisual Keyword Spotting	CodeCode Available	1
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified	0
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified	0
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified	0
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified	0
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory	Aug 31, 2021	Lip Reading	—Unverified	0
Adaptive Semantic-Spatio-Temporal Graph Convolutional Network for Lip Reading	Aug 16, 2021	Landmark-based LipreadingLip Reading	—Unverified	0
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified	0
Facetron: A Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations	Jul 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning From the Master: Distilling Cross-Modal Advanced Knowledge for Lip Reading	Jun 19, 2021	Lip ReadingSentence	—Unverified	0
LiRA: Learning Visual Speech Representations from Audio through Self-supervision	Jun 16, 2021	Lip ReadingSelf-Supervised Learning	—Unverified	0
Selective Listening by Synchronizing Speech with Lips	Jun 14, 2021	Lip ReadingTarget Speaker Extraction	CodeCode Available	1
Multi-Perspective LSTM for Joint Visual Representation Learning	May 6, 2021	Face RecognitionLip Reading	CodeCode Available	0
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks	Apr 27, 2021	Lip ReadingSpeech Synthesis	—Unverified	0
Fusing information streams in end-to-end audio-visual speech recognition	Apr 19, 2021	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
Lip reading using external viseme decoding	Apr 10, 2021	Lip Reading	—Unverified	0
Contrastive Learning of Global-Local Video Representations	Apr 7, 2021	ClassificationContrastive Learning	CodeCode Available	1
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Contrastive Self-Supervised Learning of Global-Local Audio-Visual Representations	Jan 1, 2021	ClassificationDeepFake Detection	—Unverified	0
Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention	Dec 28, 2020	Lip Reading	—Unverified	0
AuthNet: A Deep Learning based Authentication Mechanism using Temporal Facial Feature Movements	Dec 4, 2020	BenchmarkingLip password classification	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified