Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 182 papers

Title	Date	Tasks	Status
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified
MKPLS: Manifold Kernel Partial Least Squares for Lipreading and Speaker Identification	Jun 1, 2013	LipreadingSpeaker Identification	—Unverified
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge	Jun 14, 2024	speech-recognitionSpeech Recognition	—Unverified
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified
Modality Attention for End-to-End Audio-visual Speech Recognition	Nov 13, 2018	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition	Feb 11, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization	Jun 25, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception	Mar 21, 2024	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer	Mar 14, 2024	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Multi-Temporal Lip-Audio Memory for Visual Speech Recognition	May 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing	Feb 17, 2025	Lip to Speech Synthesisspeech-recognition	—Unverified
"Notic My Speech" -- Blending Speech Patterns With Multimedia	Jun 12, 2020	speech-recognitionSpeech Recognition	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Part-based Lipreading for Audio-Visual Speech Recognition	Dec 14, 2020	Audio-Visual Speech RecognitionLipreading	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
Preliminary Test of a Real-Time, Interactive Silent Speech Interface Based on Electromagnetic Articulograph	Jun 1, 2014	Speech RecognitionVisual Speech Recognition	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified