Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 182 papers

Title	Date	Tasks	Status	Score
Deep word embeddings for visual speech recognition	Oct 30, 2017	Lipreadingspeech-recognition	CodeCode Available	5
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	5
Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language	May 20, 2025	Multi-Task LearningSign Language Recognition	CodeCode Available	5
Recurrent Neural Network Transducer for Audio-Visual Speech Recognition	Nov 8, 2019	Audio-Visual Speech RecognitionLipreading	CodeCode Available	5
The NPU-ASLP System Description for Visual Speech Recognition in CNVSRC 2024	Aug 5, 2024	Decoderspeech-recognition	CodeCode Available	5
Combining Residual Networks with LSTMs for Lipreading	Mar 12, 2017	LipreadingLip Reading	CodeCode Available	5
Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	5
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available	5
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition	Jan 3, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	5
LRS3-TED: a large-scale dataset for visual speech recognition	Sep 3, 2018	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	5
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available	5
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	5
Fusing information streams in end-to-end audio-visual speech recognition	Apr 19, 2021	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Enhancing CTC-Based Visual Speech Recognition	Sep 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-To-End Visual Speech Recognition With LSTMs	Jan 20, 2017	ClassificationGeneral Classification	—Unverified	0
End-to-End Visual Speech Recognition for Small-Scale Datasets	Apr 2, 2019	General Classificationspeech-recognition	—Unverified	0
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified	0
A three-dimensional approach to Visual Speech Recognition using Discrete Cosine Transforms	Sep 7, 2016	speech-recognitionSpeech Recognition	—Unverified	0
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model	Aug 15, 2023	Quantizationspeech-recognition	—Unverified	0
End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition	Oct 7, 2023	Domain AdaptationLip Reading	—Unverified	0
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified	0
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified