Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 182 papers

Title	Date	Tasks	Status	Hype	Score
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation	Jun 14, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3	5
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing	Feb 23, 2024	LipreadingLip Reading	CodeCode Available	3	5
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition	Feb 3, 2025	Audio-Visual Speech RecognitionDecoder	CodeCode Available	3	5
Large Language Models are Strong Audio-Visual Speech Recognition Learners	Sep 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2	5
Robust Self-Supervised Audio-Visual Speech Recognition	Jan 5, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2	5
Visual Speech Recognition for Multiple Languages in the Wild	Feb 26, 2022	Hyperparameter OptimizationLipreading	CodeCode Available	2	5
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation	Mar 1, 2023	Audio-Visual Speech RecognitionRobust Speech Recognition	CodeCode Available	2	5
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization	Jun 18, 2024	Landmark-based LipreadingLipreading	CodeCode Available	2	5
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels	Mar 25, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2	5
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization	May 6, 2025	Active Speaker DetectionAudio-Visual Speech Recognition	CodeCode Available	2	5
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder	Aug 14, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1	5
Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection	Dec 14, 2020	DeepFake DetectionLipreading	CodeCode Available	1	5
Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for Robust Audio-Visual Speech Recognition	Jun 18, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition	Apr 17, 2020	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information	Jun 4, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition	Jun 18, 2023	Audio-Visual Speech RecognitionRepresentation Learning	CodeCode Available	1	5
Deep Audio-Visual Speech Recognition	Sep 6, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition	Jun 1, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
Learn an Effective Lip Reading Model without Pains	Nov 15, 2020	LipreadingLip Reading	CodeCode Available	1	5
CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition	Jan 11, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition	May 16, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1	5
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition	Feb 8, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1	5
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech Recognition	Mar 6, 2020	LipreadingLip Reading	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified