Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 182 papers

Title	Date	Tasks	Status
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified
MKPLS: Manifold Kernel Partial Least Squares for Lipreading and Speaker Identification	Jun 1, 2013	LipreadingSpeaker Identification	—Unverified
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge	Jun 14, 2024	speech-recognitionSpeech Recognition	—Unverified
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified
Modality Attention for End-to-End Audio-visual Speech Recognition	Nov 13, 2018	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition	Feb 11, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization	Jun 25, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception	Mar 21, 2024	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer	Mar 14, 2024	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Multi-Temporal Lip-Audio Memory for Visual Speech Recognition	May 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing	Feb 17, 2025	Lip to Speech Synthesisspeech-recognition	—Unverified
"Notic My Speech" -- Blending Speech Patterns With Multimedia	Jun 12, 2020	speech-recognitionSpeech Recognition	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Part-based Lipreading for Audio-Visual Speech Recognition	Dec 14, 2020	Audio-Visual Speech RecognitionLipreading	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
Preliminary Test of a Real-Time, Interactive Silent Speech Interface Based on Electromagnetic Articulograph	Jun 1, 2014	Speech RecognitionVisual Speech Recognition	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified
Rate-Invariant Analysis of Trajectories on Riemannian Manifolds with Application in Visual Speech Recognition	Jun 1, 2014	Activity RecognitionClassification	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Recognition of Isolated Words using Zernike and MFCC features for Audio Visual Speech Recognition	Jul 4, 2014	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models	Feb 3, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Resolution limits on visual speech recognition	Oct 3, 2017	Lip Readingspeech-recognition	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach	May 20, 2025	Audio-Visual Speech RecognitionMixture-of-Experts	—Unverified
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
SparseVSR: Lightweight and Noise Robust Visual Speech Recognition	Jul 10, 2023	speech-recognitionSpeech Recognition	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
SUTAV: A Turkish Audio-Visual Database	May 1, 2012	Audio-Visual Speech RecognitionPerson Identification	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task-dependent modulation of the visual sensory thalamus assists visual-speech recognition	May 24, 2018	Face Identificationspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified