Audio-Visual Speech Recognition

Audio-visual speech recognition is the task of transcribing a paired audio and visual stream into text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 100 papers

Title	Date	Tasks	Status	Hype
Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition	Jul 13, 2022	Audio-Visual Speech RecognitionDecoder	CodeCode Available	1
CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition	Jun 1, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	Feb 24, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition	Jan 11, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
End-to-end Audio-visual Speech Recognition with Conformers	Feb 12, 2021	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AV Taris: Online Audio-Visual Speech Recognition	Dec 14, 2020	Action DetectionActivity Detection	CodeCode Available	1
Should we hard-code the recurrence concept or learn it instead ? Exploring the Transformer architecture for Audio-Visual Speech Recognition	May 19, 2020	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Discriminative Multi-modality Speech Recognition	May 12, 2020	Audio-Visual Speech RecognitionLipreading	CodeCode Available	1
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition	Apr 17, 2020	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Deep Audio-Visual Speech Recognition	Sep 6, 2018	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition	Jun 5, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
Cocktail-Party Audio-Visual Speech Recognition	Jun 2, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition	May 20, 2025	Audio-Visual Speech Recognitionspeaker-diarization	—Unverified	0
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach	May 20, 2025	Audio-Visual Speech RecognitionMixture-of-Experts	—Unverified	0
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides	Apr 21, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Visual-Aware Speech Recognition for Noisy Scenarios	Apr 9, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs	Mar 9, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified	0
MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition	Feb 11, 2025	Audio-Visual Speech RecognitionComputational Efficiency	—Unverified	0
Adapter-Based Multi-Agent AVSR Extension for Pre-Trained ASR Models	Feb 3, 2025	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition	Jan 3, 2025	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	0
Uncovering the Visual Contribution in Audio-Visual Speech Recognition	Dec 22, 2024	Audio-Visual Speech RecognitionInformativeness	—Unverified	0
Quantitative Analysis of Audio-Visual Tasks: An Information-Theoretic Perspective	Sep 29, 2024	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module	Aug 31, 2024	Audio-Visual Speech Recognitionspeech-recognition	—Unverified	0
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data	Aug 1, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets LRS2 LRS3-TED LRW CAS-VSR-S101

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Hybrid CTC / Attention	Word Error Rate (WER)	39.1	—	Unverified
2	TM-Seq2seq	Test WER	8.5	—	Unverified
3	TM-CTC	Test WER	8.2	—	Unverified
4	CTC/Attention	Test WER	7	—	Unverified
5	CTC/Attention	Test WER	1.5	—	Unverified
6	Whisper-Flamingo	Test WER	1.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hyb-Conformer	Word Error Rate (WER)	2.3	—	Unverified
2	Zero-AVSR	Word Error Rate (WER)	1.5	—	Unverified
3	AV-HuBERT Large	Word Error Rate (WER)	1.4	—	Unverified
4	Whisper-Flamingo	Word Error Rate (WER)	0.76	—	Unverified
5	MMS-LLaMA	Word Error Rate (WER)	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AVCRFormer	Top-1 Accuracy	98.81	—	Unverified
2	2DCNN + BiLSTM + ResNet + MLF	Top-1 Accuracy	98.76	—	Unverified
3	PBL	Top-1 Accuracy	98.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ES³ Base*	Word Error Rate (WER)	11	—	Unverified