Visual Speech Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 182 papers

Title	Date	Tasks	Status
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision	Mar 30, 2023	Lip Readingspeech-recognition	—Unverified
The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge	Mar 11, 2023	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Conformers are All You Need for Visual Speech Recognition	Feb 17, 2023	AllLipreading	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition	Feb 16, 2023	Sentencespeech-recognition	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset	Jan 21, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
ReVISE: Self-Supervised Speech Resynthesis With Visual Input for Universal and Generalized Speech Regeneration	Jan 1, 2023	Audio-Visual Speech RecognitionResynthesis	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning	Dec 10, 2022	Audio-Visual Speech Recognitionreinforcement-learning	—Unverified
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning	Nov 21, 2022	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Streaming Audio-Visual Speech Recognition with Alignment Regularization	Nov 3, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Visual Speech Recognition in a Driver Assistance System	Aug 29, 2022	Data AugmentationLipreading	—Unverified
Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car Commands	Jul 6, 2022	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models	Jun 5, 2022	Knowledge DistillationLipreading	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Is Lip Region-of-Interest Sufficient for Lipreading?	May 28, 2022	LipreadingSelf-Supervised Learning	—Unverified
Deep Learning for Visual Speech Analysis: A Survey	May 22, 2022	Deep Learningspeech-recognition	—Unverified
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition	Feb 15, 2022	Audio-Visual Speech RecognitionLipreading	—Unverified
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-visual Speech Recognition	Nov 16, 2021	Audio-Visual Speech RecognitionLanguage Modelling	—Unverified
Advances and Challenges in Deep Lip Reading	Oct 15, 2021	Deep LearningLip Reading	—Unverified
Sub-word Level Lip Reading With Visual Attention	Oct 14, 2021	Audio-Visual Active Speaker DetectionAutomatic Speech Recognition	—Unverified
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks	Oct 13, 2021	Lip Readingspeech-recognition	—Unverified
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
LRWR: Large-Scale Benchmark for Lip Reading in Russian language	Sep 14, 2021	LipreadingLip Reading	—Unverified
Large-vocabulary Audio-visual Speech Recognition in Noisy Environments	Sep 10, 2021	Audio-Visual Speech RecognitionLipreading	—Unverified
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading	Aug 7, 2021	Audio-Visual Speech RecognitionKnowledge Distillation	—Unverified
Interactive decoding of words from visual speech recognition models	Jul 1, 2021	Positionspeech-recognition	—Unverified
Fusing information streams in end-to-end audio-visual speech recognition	Apr 19, 2021	Audio-Visual Speech RecognitionLip Reading	—Unverified
Part-based Lipreading for Audio-Visual Speech Recognition	Dec 14, 2020	Audio-Visual Speech RecognitionLipreading	—Unverified
Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous Fusion	Oct 25, 2020	Audio-Visual Speech RecognitionLandmark-based Lipreading	—Unverified
"Notic My Speech" -- Blending Speech Patterns With Multimedia	Jun 12, 2020	speech-recognitionSpeech Recognition	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Continuous Speech Recognition using EEG and Video	Dec 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASR is all you need: cross-modal distillation for lip reading	Nov 28, 2019	AllAutomatic Speech Recognition	—Unverified
Recurrent Neural Network Transducer for Audio-Visual Speech Recognition	Nov 8, 2019	Audio-Visual Speech RecognitionLipreading	CodeCode Available
Investigating the Lombard Effect Influence on End-to-End Audio-Visual Speech Recognition	Jun 5, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
MobiVSR: A Visual Speech Recognition Solution for Mobile Devices	May 10, 2019	Lip ReadingQuantization	—Unverified
End-to-End Visual Speech Recognition for Small-Scale Datasets	Apr 2, 2019	General Classificationspeech-recognition	—Unverified
Harnessing GANs for Zero-shot Learning of New Classes in Visual Speech Recognition	Jan 29, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Modality Attention for End-to-End Audio-visual Speech Recognition	Nov 13, 2018	Audio-Visual Speech RecognitionRobust Speech Recognition	—Unverified
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild	Oct 16, 2018	LipreadingLip Reading	CodeCode Available
3D Feature Pyramid Attention Module for Robust Visual Speech Recognition	Oct 15, 2018	LipreadingSentence	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Perfect match: Improved cross-modal embeddings for audio-visual synchronisation	Sep 21, 2018	Binary ClassificationCross-Modal Retrieval	—Unverified
LRS3-TED: a large-scale dataset for visual speech recognition	Sep 3, 2018	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets LRS3-TED LRS2

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	30.7	—	Unverified
2	CTC/Attention	Word Error Rate (WER)	19.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTP with more data	Word Error Rate (WER)	22.6	—	Unverified