Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 182 papers

Title	Date	Tasks	Status	Hype
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition	Feb 3, 2025	Audio-Visual Speech RecognitionDecoder	CodeCode Available	3
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation	Jun 14, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing	Feb 23, 2024	LipreadingLip Reading	CodeCode Available	3
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization	May 6, 2025	Active Speaker DetectionAudio-Visual Speech Recognition	CodeCode Available	2
Large Language Models are Strong Audio-Visual Speech Recognition Learners	Sep 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization	Jun 18, 2024	Landmark-based LipreadingLipreading	CodeCode Available	2
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels	Mar 25, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation	Mar 1, 2023	Audio-Visual Speech RecognitionRobust Speech Recognition	CodeCode Available	2
Visual Speech Recognition for Multiple Languages in the Wild	Feb 26, 2022	Hyperparameter OptimizationLipreading	CodeCode Available	2
Robust Self-Supervised Audio-Visual Speech Recognition	Jan 5, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens	Mar 14, 2025	Audio-Visual Speech RecognitionComputational Efficiency	CodeCode Available	1
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations	Mar 8, 2025	Audio-Visual Speech RecognitionMulti-Task Learning	CodeCode Available	1
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation	Jan 23, 2025	Audio-Visual Speech RecognitionMulti-Task Learning	CodeCode Available	1
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition	Oct 21, 2024	cross-modal alignmentspeech-recognition	CodeCode Available	1
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers	Jul 9, 2024	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition	Jul 4, 2024	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Watch Your Mouth: Silent Speech Recognition with Depth Sensing	May 11, 2024	Deep LearningLipreading	CodeCode Available	1
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition	Feb 8, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation	Jan 18, 2024	Sentencespeech-recognition	CodeCode Available	1
The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023	Jan 7, 2024	Decoderspeech-recognition	CodeCode Available	1
Do VSR Models Generalize Beyond LRS3?	Nov 23, 2023	Lip Readingspeech-recognition	CodeCode Available	1
Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper	Sep 15, 2023	Language Identificationspeech-recognition	CodeCode Available	1
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder	Aug 14, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition	Jun 18, 2023	Audio-Visual Speech RecognitionRepresentation Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified