Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2125 of 2177 papers

Title	Date	Tasks	Status	Hype
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified	0
The Promise of Premise: Harnessing Question Premises in Visual Question Answering	May 1, 2017	Question AnsweringRelevance Detection	CodeCode Available	0
Speech-Based Visual Question Answering	May 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset	Apr 26, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets	Apr 24, 2017	Multiple-choiceQuestion Answering	—Unverified	0
Learning to Reason: End-to-End Module Networks for Visual Question Answering	Apr 18, 2017	Visual DialogVisual Question Answering	CodeCode Available	0
ShapeWorld - A new test methodology for multimodal language understanding	Apr 14, 2017	Multimodal Deep LearningVisual Question Answering	CodeCode Available	0
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering	Apr 14, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
What's in a Question: Using Visual Questions as a Form of Supervision	Apr 12, 2017	Data AugmentationForm	CodeCode Available	0
Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering	Apr 11, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified	0
It Takes Two to Tango: Towards Theory of AI's Mind	Apr 3, 2017	AttributeQuestion Answering	—Unverified	0
Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks	Apr 2, 2017	Multi-Task LearningQuestion Answering	—Unverified	0
An Analysis of Visual Question Answering Algorithms	Mar 28, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Recurrent and Contextual Models for Visual Question Answering	Mar 23, 2017	DiversityMultiple-choice	—Unverified	0
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified	0
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
VQABQ: Visual Question Answering by Basic Questions	Mar 19, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Tree Memory Networks for Modelling Long-term Temporal Dependencies	Mar 12, 2017	Machine TranslationPart-Of-Speech Tagging	—Unverified	0
Task-driven Visual Saliency and Attention-based Visual Question Answering	Feb 22, 2017	Question AnsweringVisual Question Answering	—Unverified	0
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning	Dec 20, 2016	DiagnosticQuestion Answering	CodeCode Available	1
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions	Dec 16, 2016	BIG-bench Machine LearningQuestion Answering	—Unverified	0
Attentive Explanations: Justifying Decisions and Pointing to the Evidence	Dec 14, 2016	Decision MakingQuestion Answering	—Unverified	0
VIBIKNet: Visual Bidirectional Kernelized Network for Visual Question Answering	Dec 12, 2016	Question AnsweringVisual Question Answering	CodeCode Available	0
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering	Dec 2, 2016	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0

Show:10 25 50

← PrevPage 85 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified