Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 976–1000 of 2177 papers

Title	Date	Tasks	Status
Do Explanations make VQA Models more Predictable to a Human?	Oct 29, 2018	Question AnsweringVisual Question Answering	—Unverified
Latent Variable Models for Visual Question Answering	Jan 16, 2021	BenchmarkingQuestion Answering	—Unverified
Generative Visual Question Answering	Jul 18, 2023	Generative Visual Question AnsweringQuestion Answering	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
Abduction of Domain Relationships from Data for VQA	Feb 13, 2025	Question AnsweringVisual Question Answering	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs	Jun 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Generating Triples with Adversarial Networks for Scene Graph Construction	Feb 7, 2018	Attributegraph construction	—Unverified
Compositional Memory for Visual Question Answering	Nov 18, 2015	Question AnsweringVisual Question Answering	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Learning Answer Embeddings for Visual Question Answering	Jun 10, 2018	Question AnsweringTransfer Learning	—Unverified
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified
Learning by Asking Questions	Dec 4, 2017	Question AnsweringVisual Question Answering	—Unverified
Look, Learn and Leverage (L^3): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment	Aug 30, 2024	Question AnsweringRepresentation Learning	—Unverified
Learning Compositional Representation for Few-shot Visual Question Answering	Feb 21, 2021	AttributeQuestion Answering	—Unverified
Generating Rationales in Visual Question Answering	Apr 4, 2020	Question AnsweringVisual Question Answering	—Unverified
Generating Natural Questions from Images for Multimodal Assistants	Nov 17, 2020	Common Sense ReasoningNatural Questions	—Unverified
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback	Nov 29, 2023	Image GenerationQuestion Answering	—Unverified
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified
Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention	Feb 15, 2019	Explanation GenerationLanguage Modeling	—Unverified
Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal Foundation Models	Feb 13, 2024	Code GenerationHumanEval	—Unverified
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge	May 30, 2023	Answer SelectionQuestion Answering	—Unverified
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues	Mar 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network	Sep 23, 2019	Question AnsweringTriplet	—Unverified
Compositional Attention Networks for Interpretability in Natural Language Question Answering	Oct 30, 2018	Logical ReasoningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 40 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified