SOTAVerified|Agents Browse Leaderboard About Blog

Audio-Visual Speech Recognition

Audio-visual speech recognition is the task of transcribing a paired audio and visual stream into text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 100 papers

Title	Date	Tasks	Status	Hype	Score
Audio Visual Speech Recognition using Deep Recurrent Neural Networks	Nov 9, 2016	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0	0
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	Sep 28, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0	0
Auxiliary Multimodal LSTM for Audio-visual Speech Recognition and Lipreading	Jan 16, 2017	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0	0
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition	Sep 29, 2023	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0	0
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations	Feb 10, 2023	Audio-Visual Speech RecognitionSelf-Supervised Learning	—Unverified	0	0
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified	0	0
Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis	May 1, 2012	Audio-Visual Speech RecognitionSpeech Recognition	—Unverified	0	0
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0	0
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0	0
RUSAVIC Corpus: Russian Audio-Visual Speech in Cars	Jun 1, 2022	Audio-Visual Speech RecognitionLip Reading	—Unverified	0	0

Show:10 25 50

← PrevPage 8 of 10Next →

All datasets LRS2 LRS3-TED LRW CAS-VSR-S101

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Hybrid CTC / Attention	Word Error Rate (WER)	39.1	—	Unverified
2	TM-Seq2seq	Test WER	8.5	—	Unverified
3	TM-CTC	Test WER	8.2	—	Unverified
4	CTC/Attention	Test WER	7	—	Unverified
5	CTC/Attention	Test WER	1.5	—	Unverified
6	Whisper-Flamingo	Test WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hyb-Conformer	Word Error Rate (WER)	2.3	—	Unverified
2	Zero-AVSR	Word Error Rate (WER)	1.5	—	Unverified
3	AV-HuBERT Large	Word Error Rate (WER)	1.4	—	Unverified
4	Whisper-Flamingo	Word Error Rate (WER)	0.76	—	Unverified
5	MMS-LLaMA	Word Error Rate (WER)	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AVCRFormer	Top-1 Accuracy	98.81	—	Unverified
2	2DCNN + BiLSTM + ResNet + MLF	Top-1 Accuracy	98.76	—	Unverified
3	PBL	Top-1 Accuracy	98.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ES³ Base*	Word Error Rate (WER)	11	—	Unverified