Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 182 papers

Title	Date	Tasks	Status
Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing	May 27, 2025	speech-recognitionSpeech Recognition	—Unverified
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach	May 20, 2025	Audio-Visual Speech RecognitionMixture-of-Experts	—Unverified
Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language	May 20, 2025	Multi-Task LearningSign Language Recognition	CodeCode Available
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition	May 20, 2025	Audio-Visual Speech Recognitionspeaker-diarization	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing	Feb 17, 2025	Lip to Speech Synthesisspeech-recognition	—Unverified
MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition	Feb 11, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
Lightweight Operations for Visual Speech Recognition	Feb 7, 2025	speech-recognitionSpeech Recognition	—Unverified
Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models	Feb 3, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions	Feb 1, 2025	Lipreadingspeech-recognition	CodeCode Available
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition	Jan 8, 2025	Lip Readingspeech-recognition	—Unverified
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition	Jan 3, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
Uncovering the Visual Contribution in Audio-Visual Speech Recognition	Dec 22, 2024	Audio-Visual Speech RecognitionInformativeness	—Unverified
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024	Aug 5, 2024	Decoderspeech-recognition	CodeCode Available
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization	Jun 25, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge	Jun 14, 2024	speech-recognitionSpeech Recognition	—Unverified
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available
Learn2Talk: 3D Talking Face Learns from 2D Talking Face	Apr 19, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception	Mar 21, 2024	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer	Mar 14, 2024	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition	Mar 7, 2024	Audio-Visual Speech RecognitionKnowledge Distillation	CodeCode Available
JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition	Mar 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition	Feb 20, 2024	Decoderspeech-recognition	—Unverified
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition	Jan 18, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data	Dec 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The GUA-Speech System Description for CNVSRC Challenge 2023	Dec 12, 2023	DecoderLanguage Modeling	—Unverified
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction	Sep 15, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Another Point of View on Visual Speech Recognition	Aug 20, 2023	Landmark-based Lipreadingspeech-recognition	—Unverified
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model	Aug 15, 2023	Quantizationspeech-recognition	—Unverified
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping	Aug 11, 2023	Lip Readingspeech-recognition	—Unverified
SparseVSR: Lightweight and Noise Robust Visual Speech Recognition	Jul 10, 2023	speech-recognitionSpeech Recognition	—Unverified
Automated Speaker Independent Visual Speech Recognition: A Comprehensive Survey	Jun 14, 2023	speech-recognitionSpeech Recognition	—Unverified
Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning	May 23, 2023	Metric Learningspeech-recognition	—Unverified
Multi-Temporal Lip-Audio Memory for Visual Speech Recognition	May 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Learning-based Spatio Temporal Facial Feature Visual Speech Recognition	Apr 30, 2023	Deep LearningFace Recognition	—Unverified

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified