Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 182 papers

Title	Date	Tasks	Status
Learn2Talk: 3D Talking Face Learns from 2D Talking Face	Apr 19, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified
Continuous Speech Recognition using EEG and Video	Dec 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing	May 27, 2025	speech-recognitionSpeech Recognition	—Unverified
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning	Dec 10, 2022	Audio-Visual Speech Recognitionreinforcement-learning	—Unverified
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Lightweight Operations for Visual Speech Recognition	Feb 7, 2025	speech-recognitionSpeech Recognition	—Unverified
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping	Aug 11, 2023	Lip Readingspeech-recognition	—Unverified
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition	Jan 8, 2025	Lip Readingspeech-recognition	—Unverified
Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous Fusion	Oct 25, 2020	Audio-Visual Speech RecognitionLandmark-based Lipreading	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
Lip Reading Sentences in the Wild	Nov 16, 2016	LipreadingLip Reading	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition	Feb 20, 2024	Decoderspeech-recognition	—Unverified
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Listening With Your Eyes: Towards a Practical Visual Speech Recognition System Using Deep Boltzmann Machines	Dec 1, 2015	speech-recognitionSpeech Recognition	—Unverified
LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data	Dec 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Which phoneme-to-viseme maps best improve visual-only computer lip-reading?	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified
Manifold-Kernels Comparison in MKPLS for Visual Speech Recognition	Jan 22, 2016	speech-recognitionSpeech Recognition	—Unverified
Combining Multiple Views for Visual Speech Recognition	Oct 19, 2017	Sentencespeech-recognition	—Unverified
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified