Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2150 of 2177 papers

Title	Date	Tasks	Status	Hype
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified	0
The Promise of Premise: Harnessing Question Premises in Visual Question Answering	May 1, 2017	Question AnsweringRelevance Detection	CodeCode Available	0
Speech-Based Visual Question Answering	May 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset	Apr 26, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets	Apr 24, 2017	Multiple-choiceQuestion Answering	—Unverified	0
Learning to Reason: End-to-End Module Networks for Visual Question Answering	Apr 18, 2017	Visual DialogVisual Question Answering	CodeCode Available	0
ShapeWorld - A new test methodology for multimodal language understanding	Apr 14, 2017	Multimodal Deep LearningVisual Question Answering	CodeCode Available	0
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering	Apr 14, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
What's in a Question: Using Visual Questions as a Form of Supervision	Apr 12, 2017	Data AugmentationForm	CodeCode Available	0
Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering	Apr 11, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified	0
It Takes Two to Tango: Towards Theory of AI's Mind	Apr 3, 2017	AttributeQuestion Answering	—Unverified	0
Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks	Apr 2, 2017	Multi-Task LearningQuestion Answering	—Unverified	0
An Analysis of Visual Question Answering Algorithms	Mar 28, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Recurrent and Contextual Models for Visual Question Answering	Mar 23, 2017	DiversityMultiple-choice	—Unverified	0
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified	0
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
VQABQ: Visual Question Answering by Basic Questions	Mar 19, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Tree Memory Networks for Modelling Long-term Temporal Dependencies	Mar 12, 2017	Machine TranslationPart-Of-Speech Tagging	—Unverified	0
Task-driven Visual Saliency and Attention-based Visual Question Answering	Feb 22, 2017	Question AnsweringVisual Question Answering	—Unverified	0
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning	Dec 20, 2016	DiagnosticQuestion Answering	CodeCode Available	1
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions	Dec 16, 2016	BIG-bench Machine LearningQuestion Answering	—Unverified	0
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified	0
VIBIKNet: Visual Bidirectional Kernelized Network for Visual Question Answering	Dec 12, 2016	Question AnsweringVisual Question Answering	CodeCode Available	0
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering	Dec 2, 2016	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Visual Question Answering with Question Representation Update (QRU)	Dec 1, 2016	Question AnsweringVisual Question Answering	—Unverified	0
Grad-CAM: Why did you say that?	Nov 22, 2016	Image CaptioningVisual Question Answering	CodeCode Available	0
Zero-Shot Visual Question Answering	Nov 17, 2016	Question AnsweringRetrieval	—Unverified	0
Dual Attention Networks for Multimodal Reasoning and Matching	Nov 2, 2016	Collaborative InferenceImage-text matching	CodeCode Available	0
Proposing Plausible Answers for Open-ended Visual Question Answering	Oct 20, 2016	Graph MatchingOpen-Ended Question Answering	—Unverified	0
Hadamard Product for Low-rank Bilinear Pooling	Oct 14, 2016	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Open-Ended Visual Question-Answering	Oct 9, 2016	Question AnsweringSentence	CodeCode Available	0
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization	Oct 7, 2016	General ClassificationImage Attribution	CodeCode Available	1
Visual Question Answering: Datasets, Algorithms, and Future Challenges	Oct 5, 2016	Question AnsweringVisual Question Answering	CodeCode Available	0
The Color of the Cat is Gray: 1 Million Full-Sentences Visual Question Answering (FSVQA)	Sep 21, 2016	Question AnsweringSentence	—Unverified	0
Graph-Structured Representations for Visual Question Answering	Sep 19, 2016	Multiple-choiceQuestion Answering	—Unverified	0
Towards Transparent AI Systems: Interpreting Visual Question Answering Models	Aug 31, 2016	Question AnsweringVisual Question Answering	—Unverified	0
Measuring Machine Intelligence Through Visual Question Answering	Aug 31, 2016	Image CaptioningQuestion Answering	—Unverified	0
Visual Question: Predicting If a Crowd Will Agree on the Answer	Aug 29, 2016	Question Answeringvalid	—Unverified	0
Solving Visual Madlibs with Multiple Cues	Aug 11, 2016	Activity PredictionAttribute	—Unverified	0
Visual Question Answering: A Survey of Methods and Datasets	Jul 20, 2016	General KnowledgeSurvey	CodeCode Available	0
Annotation Methodologies for Vision and Language Dataset Creation	Jul 10, 2016	Action RecognitionImage Description	—Unverified	0
Revisiting Visual Question Answering Baselines	Jun 27, 2016	Binary ClassificationMultiple-choice	CodeCode Available	0
Analyzing the Behavior of Visual Question Answering Models	Jun 23, 2016	Question AnsweringVisual Question Answering	CodeCode Available	0
Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions	Jun 21, 2016	Question AnsweringQuestion Similarity	—Unverified	0
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified	0
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 17, 2016	Question AnsweringVisual Question Answering	—Unverified	0
FVQA: Fact-based Visual Question Answering	Jun 17, 2016	Common Sense ReasoningQuestion Answering	—Unverified	0
Training Recurrent Answering Units with Joint Loss Minimization for VQA	Jun 12, 2016	Question AnsweringVisual Question Answering	—Unverified	0
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 11, 2016	Question AnsweringVisual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 43 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified