Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 182 papers

Title	Date	Tasks	Status
Part-based Lipreading for Audio-Visual Speech Recognition	Dec 14, 2020	Audio-Visual Speech RecognitionLipreading	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
Preliminary Test of a Real-Time, Interactive Silent Speech Interface Based on Electromagnetic Articulograph	Jun 1, 2014	Speech RecognitionVisual Speech Recognition	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified
Rate-Invariant Analysis of Trajectories on Riemannian Manifolds with Application in Visual Speech Recognition	Jun 1, 2014	Activity RecognitionClassification	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Recognition of Isolated Words using Zernike and MFCC features for Audio Visual Speech Recognition	Jul 4, 2014	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Resolution limits on visual speech recognition	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition	Mar 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models	Feb 3, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model	Aug 15, 2023	Quantizationspeech-recognition	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified
Another Point of View on Visual Speech Recognition	Aug 20, 2023	Landmark-based Lipreadingspeech-recognition	—Unverified
ASR is all you need: cross-modal distillation for lip reading	Nov 28, 2019	AllAutomatic Speech Recognition	—Unverified
A three-dimensional approach to Visual Speech Recognition using Discrete Cosine Transforms	Sep 7, 2016	speech-recognitionSpeech Recognition	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified