Audio-visual Question Answering

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–27 of 27 papers

Title	Date	Tasks	Status	Hype	Score
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning	Apr 1, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2	5
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2	5
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios	Mar 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2	5
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2	5
Learning to Answer Questions in Dynamic Audio-Visual Scenarios	Mar 26, 2022	audio-visual learningAudio-visual Question Answering	CodeCode Available	1	5
Learning Trimodal Relation for AVQA with Missing Modality	Jul 23, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering	Apr 18, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
Boosting Audio Visual Question Answering via Key Semantic-Aware Cues	Jul 30, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
Vision Transformers are Parameter-Efficient Audio-Visual Learners	Dec 15, 2022	Audio-visual Question AnsweringAUDIO-VISUAL QUESTION ANSWERING (MUSIC-AVQA-v2.0)	CodeCode Available	1	5
Pano-AVQA: Grounded Audio-Visual Question Answering on 360deg Videos	Jan 1, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1	5
Question-Aware Gaussian Experts for Audio-Visual Question Answering	Mar 6, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
Pano-AVQA: Grounded Audio-Visual Question Answering on 360^ Videos	Oct 11, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1	5
Progressive Spatio-temporal Perception for Audio-Visual Question Answering	Aug 10, 2023	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
PAVE: Patching and Adapting Video Large Language Models	Mar 25, 2025	Audio-visual Question AnsweringMulti-Task Learning	CodeCode Available	1	5
Answering Diverse Questions via Text Attached with Key Audio-Visual Clues	Mar 11, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	0	5
AVQACL: A Novel Benchmark for Audio-Visual Question Answering Continual Learning	Jan 1, 2025	Audio-visual Question AnsweringContinual Learning	CodeCode Available	0	5
Music's Multimodal Complexity in AVQA: Why We Need More than General Multimodal LLMs	May 27, 2025	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	0	5
Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering	Dec 20, 2023	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	0	5
Target-Aware Spatio-Temporal Reasoning via Answering Questions in Dynamics Audio-Visual Scenarios	May 21, 2023	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	0	5
Towards Multilingual Audio-Visual Question Answering	Jun 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	0	5
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering	Nov 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified	0	0
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering	Jun 14, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified	0	0
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified	0	0
CAD -- Contextual Multi-modal Alignment for Dynamic AVQA	Oct 25, 2023	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified	0	0
Learning Sparsity for Effective and Efficient Music Performance Question Answering	Jun 2, 2025	Audio-visual Question AnsweringQuestion Answering	—Unverified	0	0
Patch-level Sounding Object Tracking for Audio-Visual Question Answering	Dec 14, 2024	Audio-visual Question AnsweringObject Tracking	—Unverified	0	0
OMCAT: Omni Context Aware Transformer	Oct 15, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified	0	0

Show:10 25 50

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	Acc	80.7	—	Unverified
2	CoQo(Internvideo2)	Acc	79.6	—	Unverified
3	VALOR	Acc	78.9	—	Unverified
4	CAD	Acc	78.26	—	Unverified
5	LAVISH	Acc	77.08	—	Unverified
6	ST-AVQA	Acc	71.52	—	Unverified