Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2125 of 2177 papers

Title	Date	Tasks	Status
Deep learning evaluation using deep linguistic processing	Jun 5, 2017	Deep LearningMultimodal Deep Learning	—Unverified
A simple neural network module for relational reasoning	Jun 5, 2017	Image Retrieval with Multi-Modal QueryQuestion Answering	CodeCode Available
MUTAN: Multimodal Tucker Fusion for Visual Question Answering	May 18, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Learning Convolutional Text Representations for Visual Question Answering	May 18, 2017	General Classificationimage-classification	CodeCode Available
Survey of Visual Question Answering: Datasets and Techniques	May 10, 2017	Deep LearningQuestion Answering	—Unverified
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified
Speech-Based Visual Question Answering	May 1, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
The Promise of Premise: Harnessing Question Premises in Visual Question Answering	May 1, 2017	Question AnsweringRelevance Detection	CodeCode Available
C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset	Apr 26, 2017	Question AnsweringVisual Question Answering	—Unverified
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets	Apr 24, 2017	Multiple-choiceQuestion Answering	—Unverified
Learning to Reason: End-to-End Module Networks for Visual Question Answering	Apr 18, 2017	Visual DialogVisual Question Answering	CodeCode Available
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering	Apr 14, 2017	Question AnsweringVisual Question Answering	CodeCode Available
ShapeWorld - A new test methodology for multimodal language understanding	Apr 14, 2017	Multimodal Deep LearningVisual Question Answering	CodeCode Available
What's in a Question: Using Visual Questions as a Form of Supervision	Apr 12, 2017	Data AugmentationForm	CodeCode Available
Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering	Apr 11, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
An Empirical Evaluation of Visual Question Answering for Novel Objects	Apr 8, 2017	Question AnsweringVisual Question Answering	—Unverified
It Takes Two to Tango: Towards Theory of AI's Mind	Apr 3, 2017	AttributeQuestion Answering	—Unverified
Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks	Apr 2, 2017	Multi-Task LearningQuestion Answering	—Unverified
An Analysis of Visual Question Answering Algorithms	Mar 28, 2017	Question AnsweringVisual Question Answering	—Unverified
Recurrent and Contextual Models for Visual Question Answering	Mar 23, 2017	DiversityMultiple-choice	—Unverified
Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation	Mar 23, 2017	DecoderMachine Translation	—Unverified
VQABQ: Visual Question Answering by Basic Questions	Mar 19, 2017	Question AnsweringVisual Question Answering	—Unverified
Tree Memory Networks for Modelling Long-term Temporal Dependencies	Mar 12, 2017	Machine TranslationPart-Of-Speech Tagging	—Unverified
Task-driven Visual Saliency and Attention-based Visual Question Answering	Feb 22, 2017	Question AnsweringVisual Question Answering	—Unverified
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions	Dec 16, 2016	BIG-bench Machine LearningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 85 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified