Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–182 of 182 papers

Title	Date	Tasks	Status
The GUA-Speech System Description for CNVSRC Challenge 2023	Dec 12, 2023	DecoderLanguage Modeling	—Unverified
The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction	Sep 15, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition	May 20, 2025	Audio-Visual Speech Recognitionspeaker-diarization	—Unverified
A three-dimensional approach to Visual Speech Recognition using Discrete Cosine Transforms	Sep 7, 2016	speech-recognitionSpeech Recognition	—Unverified
The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge	Mar 11, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Towards Estimating the Upper Bound of Visual-Speech Recognition: The Visual Lip-Reading Feasibility Database	Apr 26, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Lipreading Sentences with Active Appearance Models	May 29, 2018	Audio-Visual Speech RecognitionLipreading	—Unverified
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Uncovering the Visual Contribution in Audio-Visual Speech Recognition	Dec 22, 2024	Audio-Visual Speech RecognitionInformativeness	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition	Jun 5, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories	Mar 23, 2015	Action RecognitionGeneral Classification	—Unverified
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
ASR is all you need: cross-modal distillation for lip reading	Nov 28, 2019	AllAutomatic Speech Recognition	—Unverified
Visual-Only Recognition of Normal, Whispered and Silent Speech	Feb 18, 2018	Silent Speech Recognitionspeech-recognition	—Unverified
VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis	Jul 8, 2025	Automatic Speech RecognitionLip Reading	—Unverified
Visual Speech Recognition	Sep 3, 2014	Audio-Visual Speech RecognitionLip Reading	—Unverified
Visual speech recognition: aligning terminologies for better understanding	Oct 3, 2017	Lipreadingspeech-recognition	—Unverified
Another Point of View on Visual Speech Recognition	Aug 20, 2023	Landmark-based Lipreadingspeech-recognition	—Unverified
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Visual Speech Recognition Using PCA Networks and LSTMs in a Tandem GMM-HMM System	Oct 19, 2017	Sentencespeech-recognition	—Unverified
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified
End-to-End Visual Speech Recognition for Small-Scale Datasets	Apr 2, 2019	General Classificationspeech-recognition	—Unverified
End-To-End Visual Speech Recognition With LSTMs	Jan 20, 2017	ClassificationGeneral Classification	—Unverified
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visual Words for Automatic Lip-Reading	Sep 17, 2014	Lip Readingspeech-recognition	—Unverified
Fusing information streams in end-to-end audio-visual speech recognition	Apr 19, 2021	Audio-Visual Speech RecognitionLip Reading	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified