Lipreading

Lipreading is a process of extracting speech by watching lip movements of a speaker in the absence of sound. Humans lipread all the time without even noticing. It is a big part in communication albeit not as dominant as audio. It is a very helpful skill to learn especially for those who are hard of hearing.

Deep Lipreading is the process of extracting speech from a video of a silent talking face using deep neural networks. It is also known by few other names: Visual Speech Recognition (VSR), Machine Lipreading, Automatic Lipreading etc.

The primary methodology involves two stages: i) Extracting visual and temporal features from a sequence of image frames from a silent talking video ii) Processing the sequence of features into units of speech e.g. characters, words, phrases etc. We can find several implementations of this methodology either done in two separate stages or trained end-to-end in one go.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 103 papers

Title	Date	Tasks	Status	Hype
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing	Feb 23, 2024	LipreadingLip Reading	CodeCode Available	3
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization	Jun 18, 2024	Landmark-based LipreadingLipreading	CodeCode Available	2
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels	Mar 25, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
Training Strategies for Improved Lip-reading	Sep 3, 2022	Data AugmentationLipreading	CodeCode Available	2
Visual Speech Recognition for Multiple Languages in the Wild	Feb 26, 2022	Hyperparameter OptimizationLipreading	CodeCode Available	2
Robust Self-Supervised Audio-Visual Speech Recognition	Jan 5, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction	Jan 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs	Nov 4, 2024	Lipreadingspeech-recognition	CodeCode Available	1
Watch Your Mouth: Silent Speech Recognition with Depth Sensing	May 11, 2024	Deep LearningLipreading	CodeCode Available	1
LipLearner: Customizable Silent Speech Interactions on Mobile Devices	Feb 12, 2023	Contrastive LearningIncremental Learning	CodeCode Available	1
Jointly Learning Visual and Auditory Speech Representations from Raw Data	Dec 12, 2022	Audio-Visual Speech RecognitionLipreading	CodeCode Available	1
Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading	Apr 4, 2022	LipreadingLip Reading	CodeCode Available	1
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection	Dec 14, 2020	DeepFake DetectionLipreading	CodeCode Available	1
Learn an Effective Lip Reading Model without Pains	Nov 15, 2020	LipreadingLip Reading	CodeCode Available	1
Towards Practical Lipreading with Distilled and Efficient Models	Jul 13, 2020	Knowledge DistillationLipreading	CodeCode Available	1
Discriminative Multi-modality Speech Recognition	May 12, 2020	Audio-Visual Speech RecognitionLipreading	CodeCode Available	1
Mutual Information Maximization for Effective Lip Reading	Mar 13, 2020	LipreadingLip Reading	CodeCode Available	1
Deformation Flow Based Two-Stream Network for Lip Reading	Mar 12, 2020	Knowledge DistillationLipreading	CodeCode Available	1
Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition	Mar 6, 2020	LipreadingLip Reading	CodeCode Available	1
Lipreading using Temporal Convolutional Networks	Jan 23, 2020	LipreadingLip Reading	CodeCode Available	1
Deep Audio-Visual Speech Recognition	Sep 6, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LipNet: End-to-End Sentence-level Lipreading	Nov 5, 2016	General ClassificationLipreading	CodeCode Available	1
Learning Speaker-Invariant Visual Features for Lipreading	Jun 9, 2025	DisentanglementLipreading	—Unverified	0
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified	0
OXSeg: Multidimensional attention UNet-based lip segmentation using semi-supervised lip contours	May 8, 2025	Generative Adversarial NetworkLipreading	—Unverified	0
Target Speaker Lipreading by Audio-Visual Self-Distillation Pretraining and Speaker Adaptation	Feb 9, 2025	Cross-Lingual TransferLipreading	—Unverified	0
Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions	Feb 1, 2025	Lipreadingspeech-recognition	CodeCode Available	0
RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views	Sep 9, 2024	LipreadingLip Reading	—Unverified	0
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available	0
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder	Apr 8, 2024	LipreadingLip Reading	—Unverified	0
Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading	Feb 18, 2024	LipreadingLip Reading	—Unverified	0
ES3: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations	Jan 1, 2024	Audio-Visual Speech RecognitionLipreading	—Unverified	0
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified	0
Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding	Jun 14, 2023	Lipreading	—Unverified	0
Audio-Visual Speech Enhancement with Score-Based Generative Models	Jun 2, 2023	Automatic Speech RecognitionLipreading	—Unverified	0
Word-level Persian Lipreading Dataset	Apr 8, 2023	LipreadingLip Reading	—Unverified	0
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified	0
LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark Transformers	Feb 4, 2023	LipreadingSentence	—Unverified	0
Relaxed Attention for Transformer Models	Sep 20, 2022	DecoderImage Classification	—Unverified	0
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified	0
Bayesian Neural Network Language Modeling for Speech Recognition	Aug 28, 2022	Data AugmentationLanguage Modeling	CodeCode Available	0
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale	Aug 21, 2022	LipreadingLip Reading	—Unverified	0
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified	0
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified	0
Accurate and Resource-Efficient Lipreading with Efficientnetv2 and Transformers	May 23, 2022	image-classificationImage Classification	—Unverified	0
Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding	Apr 11, 2022	DecoderLipreading	—Unverified	0
Self-supervised Transformer for Deepfake Detection	Mar 2, 2022	Contrastive LearningDeepFake Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets LRS3-TED LRS2 Lip Reading in the Wild CAS-VSR-W1k (LRW-1000)CMLR GRID corpus (mixed-speech)LRW-1000 CAS-VSR-S101

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Conv-seq2seq	Word Error Rate (WER)	60.1	—	Unverified
2	CTC + KD	Word Error Rate (WER)	59.8	—	Unverified
3	TM-seq2seq	Word Error Rate (WER)	58.9	—	Unverified
4	EG-seq2seq	Word Error Rate (WER)	57.8	—	Unverified
5	CTC-V2P	Word Error Rate (WER)	55.1	—	Unverified
6	Hyb + Conformer	Word Error Rate (WER)	43.3	—	Unverified
7	VTP	Word Error Rate (WER)	40.6	—	Unverified
8	ES³ Base	Word Error Rate (WER)	40.3	—	Unverified
9	ES³ Large	Word Error Rate (WER)	37.1	—	Unverified
10	RNN-T	Word Error Rate (WER)	33.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LIBS	Word Error Rate (WER)	65.29	—	Unverified
2	TM-CTC + extLM	Word Error Rate (WER)	54.7	—	Unverified
3	CTC + KD ASR	Word Error Rate (WER)	53.2	—	Unverified
4	Conv-seq2seq	Word Error Rate (WER)	51.7	—	Unverified
5	Hybrid CTC / Attention	Word Error Rate (WER)	50	—	Unverified
6	LF-MMI TDNN	Word Error Rate (WER)	48.86	—	Unverified
7	TM-seq2seq + extLM	Word Error Rate (WER)	48.3	—	Unverified
8	Multi-head Visual-Audio Memory	Word Error Rate (WER)	44.5	—	Unverified
9	MoCo + wav2vec (w/o extLM)	Word Error Rate (WER)	43.2	—	Unverified
10	CTC/Attention	Word Error Rate (WER)	32.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SyncVSR (Word Boundary)	Top-1 Accuracy	95	—	Unverified
2	3D Conv + ResNet-18 + DC-TCN + KD (Ensemble & Word Boundary)	Top-1 Accuracy	94.1	—	Unverified
3	SyncVSR	Top-1 Accuracy	93.2	—	Unverified
4	AVCRFormer	Top-1 Accuracy	89.57	—	Unverified
5	3D Conv + EfficientNetV2 + Transformer + TCN	Top-1 Accuracy	89.52	—	Unverified
6	Vosk + MediaPipe + LS + MixUp + SA + 3DResNet-18 + BiLSTM + Cosine WR	Top-1 Accuracy	88.7	—	Unverified
7	3D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory	Top-1 Accuracy	88.5	—	Unverified
8	3D Conv + ResNet-18 + MS-TCN + KD (Ensemble)	Top-1 Accuracy	88.5	—	Unverified
9	3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR (Word Boundary)	Top-1 Accuracy	88.4	—	Unverified
10	3D-ResNet + Bi-GRU + MixUp + Label Smoothing + Cosine LR	Top-1 Accuracy	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SyncVSR (Word Boundary)	Top-1 Accuracy	58.2	—	Unverified
2	3D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR (Word Boundary)	Top-1 Accuracy	55.7	—	Unverified
3	3D Conv + ResNet-18 + MS-TCN + Multi-Head Visual-Audio Memory	Top-1 Accuracy	53.8	—	Unverified
4	3D Conv + ResNet-18 + Bi-GRU + Visual-Audio Memory	Top-1 Accuracy	50.82	—	Unverified
5	3D-ResNet + Bi-GRU + MixUp + Label Smooth + Cosine LR	Top-1 Accuracy	48.3	—	Unverified
6	3D Conv + ResNet-18 + Bi-GRU (Face Cutout)	Top-1 Accuracy	45.24	—	Unverified
7	DFTN	Top-1 Accuracy	41.93	—	Unverified
8	GLMIM	Top-1 Accuracy	38.79	—	Unverified
9	PCPG	Top-1 Accuracy	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WAS	CER	38.93	—	Unverified
2	LipCH-Net	CER	34.07	—	Unverified
3	CSSMCM	CER	32.48	—	Unverified
4	LIBS	CER	31.27	—	Unverified
5	CTC/Attention	CER	9.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LipNet	Word Error Rate (WER)	4.6	—	Unverified
2	WAS	Word Error Rate (WER)	3	—	Unverified
3	LCANet	Word Error Rate (WER)	2.9	—	Unverified
4	LipNet (with Face Cutout)	Word Error Rate (WER)	2.9	—	Unverified
5	CTC/Attention	Word Error Rate (WER)	1.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3D Conv + ResNet-18 + MS-TCN	Top-1 Accuracy	41.4	—	Unverified
2	3D Conv + ResNet-34 + Bi-GRU	Top-1 Accuracy	38.19	—	Unverified
3	DenseNet3D + Bi-GRU	Top-1 Accuracy	34.76	—	Unverified
4	Multi-Tower LSTM-5	Top-1 Accuracy	25.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ES³ Base*	Word Error Rate (WER)	55.6	—	Unverified