Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1951–2000 of 2177 papers

Title	Date	Tasks	Status	Hype
MUREL: Multimodal Relational Reasoning for Visual Question Answering	Feb 25, 2019	Relational ReasoningVisual Question Answering	CodeCode Available	0
Dual Attention Networks for Visual Reference Resolution in Visual Dialog	Feb 25, 2019	AI AgentQuestion Answering	CodeCode Available	0
Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering	Feb 21, 2019	counterfactualQuestion Answering	—Unverified	0
Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention	Feb 15, 2019	Explanation GenerationLanguage Modeling	—Unverified	0
Cycle-Consistency for Robust Visual Question Answering	Feb 15, 2019	Question AnsweringQuestion Generation	—Unverified	0
Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded	Feb 11, 2019	Image CaptioningQuestion Answering	—Unverified	0
VrR-VG: Refocusing Visually-Relevant Relationships	Feb 1, 2019	Image CaptioningQuestion Answering	—Unverified	0
BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection	Jan 31, 2019	Question AnsweringRelationship Detection	CodeCode Available	0
Visual Entailment: A Novel Task for Fine-Grained Image Understanding	Jan 20, 2019	Natural Language InferenceQuestion Answering	—Unverified	0
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	0
The meaning of "most" for visual question answering models	Dec 31, 2018	Question AnsweringVisual Question Answering	—Unverified	0
Scene Graph Reasoning with Prior Visual Relationship for Visual Question Answering	Dec 23, 2018	Cross-Modal Information RetrievalInformation Retrieval	—Unverified	0
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	0
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering	Dec 13, 2018	Question AnsweringVisual Question Answering	—Unverified	0
Spatial Knowledge Distillation to aid Visual Reasoning	Dec 10, 2018	DiagnosticKnowledge Distillation	—Unverified	0
Learning Representations of Sets through Optimized Permutations	Dec 10, 2018	General ClassificationQuestion Answering	CodeCode Available	0
Recursive Visual Attention in Visual Dialog	Dec 6, 2018	Question AnsweringVisual Dialog	CodeCode Available	0
Multi-task Learning of Hierarchical Vision-Language Representation	Dec 3, 2018	Multi-Task LearningQuestion Answering	—Unverified	0
Learning to Specialize with Knowledge Distillation for Visual Question Answering	Dec 1, 2018	General ClassificationGeneral Knowledge	—Unverified	0
Chain of Reasoning for Visual Question Answering	Dec 1, 2018	ObjectQuestion Answering	—Unverified	0
From Known to the Unknown: Transferring Knowledge to Answer Questions about Novel Visual and Semantic Concepts	Nov 30, 2018	Novel ConceptsQuestion Answering	—Unverified	0
Visual Question Answering as Reading Comprehension	Nov 29, 2018	Common Sense ReasoningGeneral Knowledge	—Unverified	0
CLEAR: A Dataset for Compositional Language and Elementary Acoustic Reasoning	Nov 26, 2018	Acoustic Question AnsweringQuestion Answering	CodeCode Available	0
Visual Entailment Task for Visually-Grounded Language Learning	Nov 26, 2018	Grounded language learningNatural Language Inference	—Unverified	0
A dataset of clinically generated visual questions and answers about radiology images	Nov 20, 2018	Decision MakingMedical Visual Question Answering	—Unverified	0
Explicit Bias Discovery in Visual Question Answering Models	Nov 19, 2018	Question AnsweringVisual Question Answering	—Unverified	0
Zero-Shot Transfer VQA Dataset	Nov 2, 2018	Question AnsweringTransfer Learning	—Unverified	0
Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering	Nov 1, 2018	Factual Visual Question AnsweringGeneral Knowledge	—Unverified	0
Compositional Attention Networks for Interpretability in Natural Language Question Answering	Oct 30, 2018	Logical ReasoningQuestion Answering	—Unverified	0
Gated Hierarchical Attention for Image Captioning	Oct 30, 2018	DecoderImage Captioning	CodeCode Available	1
Do Explanations make VQA Models more Predictable to a Human?	Oct 29, 2018	Question AnsweringVisual Question Answering	—Unverified	0
TallyQA: Answering Complex Counting Questions	Oct 29, 2018	AttributeObject Counting	CodeCode Available	0
Knowing Where to Look? Analysis on Attention of Visual Question Answering System	Oct 9, 2018	Question AnsweringVisual Question Answering	—Unverified	0
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization	Oct 8, 2018	Question AnsweringVisual Grounding	—Unverified	0
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding	Oct 4, 2018	Question AnsweringRepresentation Learning	CodeCode Available	0
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering	Oct 3, 2018	Question AnsweringTransfer Learning	CodeCode Available	0
Textually Enriched Neural Module Networks for Visual Question Answering	Sep 23, 2018	Image CaptioningQuestion Answering	—Unverified	0
The Wisdom of MaSSeS: Majority, Subjectivity, and Semantic Similarity in the Evaluation of VQA	Sep 12, 2018	Question AnsweringSemantic Similarity	—Unverified	0
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1
Visual Coreference Resolution in Visual Dialog using Neural Module Networks	Sep 6, 2018	Common Sense Reasoningcoreference-resolution	CodeCode Available	0
Cascaded Mutual Modulation for Visual Reasoning	Sep 6, 2018	Question AnsweringVisual Question Answering	CodeCode Available	0
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified	0
Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering	Sep 4, 2018	Factual Visual Question AnsweringGeneral Knowledge	—Unverified	0
Deep Attention Neural Tensor Network for Visual Question Answering	Sep 1, 2018	Deep AttentionQuestion Answering	—Unverified	0
Adapting Visual Question Answering Models for Enhancing Multimodal Community Q&A Platforms	Aug 29, 2018	Community Question AnsweringGeneral Classification	CodeCode Available	0
Question-Guided Hybrid Convolution for Visual Question Answering	Aug 8, 2018	Question AnsweringVisual Question Answering	—Unverified	0
Visual Reasoning with Multi-hop Feature Modulation	Aug 3, 2018	Question AnsweringVisual Dialog	CodeCode Available	0
Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps	Aug 1, 2018	Cross-Lingual TransferImage Captioning	—Unverified	0
Learning Visual Question Answering by Bootstrapping Hard Attention	Aug 1, 2018	Hard AttentionQuestion Answering	CodeCode Available	0
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified	0

Show:10 25 50

← PrevPage 40 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified