Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 182 papers

Title	Date	Tasks	Status
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified
Rate-Invariant Analysis of Trajectories on Riemannian Manifolds with Application in Visual Speech Recognition	Jun 1, 2014	Activity RecognitionClassification	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Recognition of Isolated Words using Zernike and MFCC features for Audio Visual Speech Recognition	Jul 4, 2014	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models	Feb 3, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Resolution limits on visual speech recognition	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach	May 20, 2025	Audio-Visual Speech RecognitionMixture-of-Experts	—Unverified
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
SparseVSR: Lightweight and Noise Robust Visual Speech Recognition	Jul 10, 2023	speech-recognitionSpeech Recognition	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
SUTAV: A Turkish Audio-Visual Database	May 1, 2012	Audio-Visual Speech RecognitionPerson Identification	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task-dependent modulation of the visual sensory thalamus assists visual-speech recognition	May 24, 2018	Face Identificationspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified