Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 182 papers

Title	Date	Tasks	Status	Hype
AV Taris: Online Audio-Visual Speech Recognition	Dec 14, 2020	Action DetectionActivity Detection	CodeCode Available	1
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization	May 18, 2023	Audio-Visual Speech RecognitionPrompt Engineering	CodeCode Available	1
Learn an Effective Lip Reading Model without Pains	Nov 15, 2020	LipreadingLip Reading	CodeCode Available	1
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations	Mar 8, 2025	Audio-Visual Speech RecognitionMulti-Task Learning	CodeCode Available	1
CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition	Jan 11, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition	Feb 8, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition	Jul 4, 2024	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition	Oct 21, 2024	cross-modal alignmentspeech-recognition	CodeCode Available	1
Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for Robust Audio-Visual Speech Recognition	Jun 18, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder	Aug 14, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Jointly Learning Visual and Auditory Speech Representations from Raw Data	Dec 12, 2022	Audio-Visual Speech RecognitionLipreading	CodeCode Available	1
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	Feb 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition	Jun 1, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information	Jun 4, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition	May 16, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition	Mar 9, 2023	Lip ReadingMachine Translation	CodeCode Available	1
Do VSR Models Generalize Beyond LRS3?	Nov 23, 2023	Lip Readingspeech-recognition	CodeCode Available	1
Deep Audio-Visual Speech Recognition	Sep 6, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation	Jan 23, 2025	Audio-Visual Speech RecognitionMulti-Task Learning	CodeCode Available	1
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition	Apr 17, 2020	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified	0

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified