SOTAVerified|Agents Browse Leaderboard About Blog

Lip Reading

Lip Reading is a task to infer the speech content in a video by using only the visual information, especially the lip movements. It has many crucial applications in practice, such as assisting audio-based speech recognition, biometric authentication and aiding hearing-impaired people.

Source: Mutual Information Maximization for Effective Lip Reading

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 153 papers

Title	Date	Tasks	Status	Hype
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism	Dec 11, 2023	Face GenerationLip Reading	CodeCode Available	1
Do VSR Models Generalize Beyond LRS3?	Nov 23, 2023	Lip Readingspeech-recognition	CodeCode Available	1
Exploring Lip Segmentation Techniques in Computer Vision: A Comparative Analysis	Nov 20, 2023	Edge-computingLip Reading	—Unverified	0
DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation	Nov 8, 2023	Lip Reading	CodeCode Available	0
Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading	Oct 8, 2023	Lip Reading	CodeCode Available	0
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified	0
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge	Aug 18, 2023	Lip Reading	—Unverified	0
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping	Aug 11, 2023	Lip Readingspeech-recognition	—Unverified	0
Leveraging Visemes for Better Visual Speech Representation and Lip Reading	Jul 19, 2023	Lip ReadingSentence	—Unverified	0
SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces	Jun 19, 2023	3D Face AnimationLip Reading	CodeCode Available	1
Emotional Speech-Driven Animation with Content-Emotion Disentanglement	Jun 15, 2023	DisentanglementLip Reading	—Unverified	0
OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment	Jun 10, 2023	Audio-Visual Speech RecognitionLip Reading	CodeCode Available	1
LipVoicer: Generating Speech from Silent Videos Guided by Lip Reading	Jun 5, 2023	Lip Reading	CodeCode Available	1
A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus	Jun 5, 2023	Lip Reading	CodeCode Available	0
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified	0
PixelRNN: In-pixel Recurrent Neural Networks for End-to-end-optimized Perception with Neural Sensors	Apr 11, 2023	Gesture RecognitionHand Gesture Recognition	—Unverified	0
Word-level Persian Lipreading Dataset	Apr 8, 2023	LipreadingLip Reading	—Unverified	0
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified	0
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert	Mar 29, 2023	Contrastive LearningFace Generation	CodeCode Available	2
A large-scale multimodal dataset of human speech recognition	Mar 15, 2023	Lip ReadingMotion Detection	—Unverified	0
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition	Mar 9, 2023	Lip ReadingMachine Translation	CodeCode Available	1
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified	0
GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis	Jan 31, 2023	Face GenerationLip Reading	CodeCode Available	4
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset	Jan 16, 2023	Audio-Visual Speech RecognitionLip Reading	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 7Next →

All datasets GRID corpus (mixed-speech)LRW TCD-TIMIT corpus (mixed-speech)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	14.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	34.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Lip2Wav	WER	31.26	—	Unverified