Lipreading

Lipreading is a process of extracting speech by watching lip movements of a speaker in the absence of sound. Humans lipread all the time without even noticing. It is a big part in communication albeit not as dominant as audio. It is a very helpful skill to learn especially for those who are hard of hearing.

Deep Lipreading is the process of extracting speech from a video of a silent talking face using deep neural networks. It is also known by few other names: Visual Speech Recognition (VSR), Machine Lipreading, Automatic Lipreading etc.

The primary methodology involves two stages: i) Extracting visual and temporal features from a sequence of image frames from a silent talking video ii) Processing the sequence of features into units of speech e.g. characters, words, phrases etc. We can find several implementations of this methodology either done in two separate stages or trained end-to-end in one go.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 103 papers

Title	Date	Tasks	Status
Self-supervised Transformer for Deepfake Detection	Mar 2, 2022	Contrastive LearningDeepFake Detection	—Unverified
Sign Language Translation in a Healthcare Setting	Jul 1, 2021	LipreadingSign Language Translation	—Unverified
Spatio-Temporal Fusion Based Convolutional Sequence Learning for Lip Reading	Oct 1, 2019	LipreadingLip Reading	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
Talking Heads, Signing Avatars and Social Robots	Sep 1, 2015	Lipreading	—Unverified
Target Speaker Lipreading by Audio-Visual Self-Distillation Pretraining and Speaker Adaptation	Feb 9, 2025	Cross-Lingual TransferLipreading	—Unverified
The speaker-independent lipreading play-off; a survey of lipreading machines	Oct 24, 2018	General ClassificationLipreading	—Unverified
Towards Lipreading Sentences with Active Appearance Models	May 29, 2018	Audio-Visual Speech RecognitionLipreading	—Unverified
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified
Understanding the visual speech signal	Oct 3, 2017	Lipreading	—Unverified
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified
Visual gesture variability between talkers in continuous visual speech	Oct 3, 2017	Lipreading	—Unverified
Visual Speech Enhancement	Nov 23, 2017	LipreadingSpeech Enhancement	—Unverified
Visual Speech Language Models	Sep 14, 2018	Language ModelingLanguage Modelling	—Unverified
Visual speech recognition: aligning terminologies for better understanding	Oct 3, 2017	Lipreadingspeech-recognition	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Word-level Persian Lipreading Dataset	Apr 8, 2023	LipreadingLip Reading	—Unverified
A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading	Aug 14, 2019	LipreadingLip Reading	—Unverified
Accurate and Resource-Efficient Lipreading with Efficientnetv2 and Transformers	May 23, 2022	image-classificationImage Classification	—Unverified
Alternative Visual Units for an Optimized Phoneme-Based Lipreading System	Sep 16, 2019	LipreadingManagement	—Unverified
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified
ASR is all you need: cross-modal distillation for lip reading	Nov 28, 2019	AllAutomatic Speech Recognition	—Unverified
Audio-visual Multi-channel Recognition of Overlapped Speech	May 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech Enhancement with Score-Based Generative Models	Jun 2, 2023	Automatic Speech RecognitionLipreading	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Can DNNs Learn to Lipread Full Sentences?	May 29, 2018	General ClassificationLanguage Modeling	—Unverified
Comparing heterogeneous visual gestures for measuring the diversity of visual speech signals	May 8, 2018	ClusteringDiversity	—Unverified
Comparing phonemes and visemes with DNN-based lipreading	May 8, 2018	DecoderLipreading	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading	Feb 18, 2024	LipreadingLip Reading	—Unverified
Decoding visemes: improving machine lipreading	Oct 3, 2017	ClusteringGeneral Classification	—Unverified
Decoding visemes: improving machine lipreading	Oct 3, 2017	ClassificationGeneral Classification	—Unverified
End-to-End Multi-View Lipreading	Sep 1, 2017	General ClassificationLipreading	—Unverified
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder	Apr 8, 2024	LipreadingLip Reading	—Unverified
ES3: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations	Jan 1, 2024	Audio-Visual Speech RecognitionLipreading	—Unverified
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire	Aug 6, 2020	DecoderLanguage Modelling	—Unverified
Improving Speaker-Independent Lipreading with Domain-Adversarial Training	Aug 4, 2017	Lipreadingspeech-recognition	—Unverified
Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding	Jun 14, 2023	Lipreading	—Unverified
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified
Large-Scale Visual Speech Recognition	Jul 13, 2018	DecoderLipreading	—Unverified
Large-vocabulary Audio-visual Speech Recognition in Noisy Environments	Sep 10, 2021	Audio-Visual Speech RecognitionLipreading	—Unverified
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified
Learning from Videos with Deep Convolutional LSTM Networks	Apr 9, 2019	LipreadingLip Reading	—Unverified
Learning Spatio-Temporal Features with Two-Stream Deep 3D CNNs for Lipreading	May 4, 2019	General ClassificationLipreading	—Unverified
Learning Speaker-Invariant Visual Features for Lipreading	Jun 9, 2025	DisentanglementLipreading	—Unverified
LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark Transformers	Feb 4, 2023	LipreadingSentence	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets LRS3-TED LRS2 Lip Reading in the Wild CAS-VSR-W1k (LRW-1000)CMLR GRID corpus (mixed-speech)LRW-1000 CAS-VSR-S101

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Conv-seq2seq	Word Error Rate (WER)	60.1	—	Unverified
2	CTC + KD	Word Error Rate (WER)	59.8	—	Unverified
3	TM-seq2seq	Word Error Rate (WER)	58.9	—	Unverified
4	EG-seq2seq	Word Error Rate (WER)	57.8	—	Unverified
5	CTC-V2P	Word Error Rate (WER)	55.1	—	Unverified
6	Hyb + Conformer	Word Error Rate (WER)	43.3	—	Unverified
7	VTP	Word Error Rate (WER)	40.6	—	Unverified
8	ES³ Base	Word Error Rate (WER)	40.3	—	Unverified
9	ES³ Large	Word Error Rate (WER)	37.1	—	Unverified
10	RNN-T	Word Error Rate (WER)	33.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LIBS	Word Error Rate (WER)	65.29	—	Unverified
2	TM-CTC + extLM	Word Error Rate (WER)	54.7	—	Unverified
3	CTC + KD ASR	Word Error Rate (WER)	53.2	—	Unverified
4	Conv-seq2seq	Word Error Rate (WER)	51.7	—	Unverified
5	Hybrid CTC / Attention	Word Error Rate (WER)	50	—	Unverified
6	LF-MMI TDNN	Word Error Rate (WER)	48.86	—	Unverified
7	TM-seq2seq + extLM	Word Error Rate (WER)	48.3	—	Unverified
8	Multi-head Visual-Audio Memory	Word Error Rate (WER)	44.5	—	Unverified
9	MoCo + wav2vec (w/o extLM)	Word Error Rate (WER)	43.2	—	Unverified
10	CTC/Attention	Word Error Rate (WER)	32.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SyncVSR (Word Boundary)	Top-1 Accuracy	95	—	Unverified
2	3D Conv + ResNet-18 + DC-TCN + KD (Ensemble & Word Boundary)	Top-1 Accuracy	94.1	—	Unverified
3	SyncVSR	Top-1 Accuracy	93.2	—	Unverified
4	AVCRFormer	Top-1 Accuracy	89.57	—	Unverified
5	3D Conv + EfficientNetV2 + Transformer + TCN	Top-1 Accuracy	89.52	—	Unverified
6	Vosk + MediaPipe + LS + MixUp + SA + 3DResNet-18 + BiLSTM + Cosine WR	Top-1 Accuracy	88.7	—	Unverified
7	3D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory	Top-1 Accuracy	88.5	—	Unverified
8	3D Conv + ResNet-18 + MS-TCN + KD (Ensemble)	Top-1 Accuracy	88.5	—	Unverified
9	3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR (Word Boundary)	Top-1 Accuracy	88.4	—	Unverified
10	3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR	Top-1 Accuracy	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SyncVSR (Word Boundary)	Top-1 Accuracy	58.2	—	Unverified
2	3D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR (Word Boundary)	Top-1 Accuracy	55.7	—	Unverified
3	3D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory	Top-1 Accuracy	53.8	—	Unverified
4	3D Conv + ResNet-18 + Bi-GRU + Visual-Audio Memory	Top-1 Accuracy	50.82	—	Unverified
5	3D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR	Top-1 Accuracy	48.3	—	Unverified
6	3D Conv + ResNet-18 + Bi-GRU (Face Cutout)	Top-1 Accuracy	45.24	—	Unverified
7	DFTN	Top-1 Accuracy	41.93	—	Unverified
8	GLMIM	Top-1 Accuracy	38.79	—	Unverified
9	PCPG	Top-1 Accuracy	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WAS	CER	38.93	—	Unverified
2	LipCH-Net	CER	34.07	—	Unverified
3	CSSMCM	CER	32.48	—	Unverified
4	LIBS	CER	31.27	—	Unverified
5	CTC/Attention	CER	9.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LipNet	Word Error Rate (WER)	4.6	—	Unverified
2	WAS	Word Error Rate (WER)	3	—	Unverified
3	LCANet	Word Error Rate (WER)	2.9	—	Unverified
4	LipNet (with Face Cutout)	Word Error Rate (WER)	2.9	—	Unverified
5	CTC/Attention	Word Error Rate (WER)	1.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3D Conv + ResNet-18 + MS-TCN	Top-1 Accuracy	41.4	—	Unverified
2	3D Conv + ResNet-34 + Bi-GRU	Top-1 Accuracy	38.19	—	Unverified
3	DenseNet3D + Bi-GRU	Top-1 Accuracy	34.76	—	Unverified
4	Multi-Tower LSTM-5	Top-1 Accuracy	25.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ES³ Base*	Word Error Rate (WER)	55.6	—	Unverified