Audio-Visual Speech Recognition

Audio-visual speech recognition is the task of transcribing a paired audio and visual stream into text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 100 papers

Title	Date	Tasks	Status
Audio-Visual Speech Recognition is Worth 32328 Voxels	Sep 20, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices	Feb 17, 2023	Audio-Visual Speech RecognitionGesture Recognition	—Unverified
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach	May 20, 2025	Audio-Visual Speech RecognitionMixture-of-Experts	—Unverified
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Visual Speech Recognition	Sep 3, 2014	Audio-Visual Speech RecognitionLip Reading	—Unverified
Deep Multimodal Learning for Audio-Visual Speech Recognition	Jan 22, 2015	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified
Deep Multimodal Representation Learning from Temporal Data	Apr 11, 2017	Audio-Visual Speech RecognitionRepresentation Learning	—Unverified
Detecting Adversarial Attacks On Audiovisual Speech Recognition	Dec 18, 2019	Audio-Visual Speech Recognitionspeech-recognition	—Unverified
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition	Jan 3, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
LRS3-TED: a large-scale dataset for visual speech recognition	Sep 3, 2018	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available
Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation	Jan 7, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available
Audio-Visual Speech Recognition based on Regulated Transformer and Spatio-Temporal Fusion Strategy for Driver Assistive Systems	May 9, 2024	Audio-Visual Speech RecognitionLipreading	CodeCode Available
Recurrent Neural Network Transducer for Audio-Visual Speech Recognition	Nov 8, 2019	Audio-Visual Speech RecognitionLipreading	CodeCode Available
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition	Mar 7, 2024	Audio-Visual Speech RecognitionKnowledge Distillation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets LRS2 LRS3-TED LRW CAS-VSR-S101

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Hybrid CTC / Attention	Word Error Rate (WER)	39.1	—	Unverified
2	TM-Seq2seq	Test WER	8.5	—	Unverified
3	TM-CTC	Test WER	8.2	—	Unverified
4	CTC/Attention	Test WER	7	—	Unverified
5	CTC/Attention	Test WER	1.5	—	Unverified
6	Whisper-Flamingo	Test WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hyb-Conformer	Word Error Rate (WER)	2.3	—	Unverified
2	Zero-AVSR	Word Error Rate (WER)	1.5	—	Unverified
3	AV-HuBERT Large	Word Error Rate (WER)	1.4	—	Unverified
4	Whisper-Flamingo	Word Error Rate (WER)	0.76	—	Unverified
5	MMS-LLaMA	Word Error Rate (WER)	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AVCRFormer	Top-1 Accuracy	98.81	—	Unverified
2	2DCNN + BiLSTM + ResNet + MLF	Top-1 Accuracy	98.76	—	Unverified
3	PBL	Top-1 Accuracy	98.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ES³ Base*	Word Error Rate (WER)	11	—	Unverified