Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 153 papers

Title	Date	Tasks	Status	Hype
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model	Jan 10, 2023	DenoisingFace Model	—Unverified	0
Audio-Visual Efficient Conformer for Robust Speech Recognition	Jan 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss	Nov 20, 2022	Face HallucinationGenerative Adversarial Network	—Unverified	0
Lip Sync Matters: A Novel Multimodal Forgery Detector	Nov 7, 2022	DeepFake DetectionFace Swapping	CodeCode Available	0
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified	0
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation	Oct 24, 2022	Action RecognitionLip Reading	—Unverified	0
VCSE: Time-Domain Visual-Contextual Speaker Extraction Network	Oct 9, 2022	Lip Reading	—Unverified	0
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	—Unverified	0
Training Strategies for Improved Lip-reading	Sep 3, 2022	Data AugmentationLipreading	CodeCode Available	2
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified	0
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified	0
Speaker-adaptive Lip Reading with User-dependent Padding	Aug 9, 2022	Lip Readingspeech-recognition	CodeCode Available	0
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified	0
Learning Speaker-specific Lip-to-Speech Generation	Jun 4, 2022	DecoderLip Reading	—Unverified	0
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
Expression-preserving face frontalization improves visually assisted speech processing	Apr 6, 2022	Face ModelLip Reading	—Unverified	0
Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading	Apr 4, 2022	LipreadingLip Reading	CodeCode Available	1
Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video	Apr 4, 2022	Lip Reading	CodeCode Available	1
A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning	Feb 27, 2022	Lip ReadingTransfer Learning	—Unverified	0
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction	Jan 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Multi-Grained Spatio-Temporal Features Perceived Network for Event-Based Lip-Reading	Jan 1, 2022	Action RecognitionLip Reading	—Unverified	0
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading	Dec 9, 2021	DecoderLip Reading	—Unverified	0

Show:10 25 50

← PrevPage 3 of 7Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified