Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2076–2100 of 2177 papers

Title	Date	Tasks	Status	Hype
Data Augmentation for Visual Question Answering	Sep 1, 2017	Data AugmentationGeneral Classification	—Unverified	0
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation	Aug 15, 2017	Language ModelingLanguage Modelling	CodeCode Available	0
Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering	Aug 10, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge	Aug 9, 2017	GPUVisual Question Answering	CodeCode Available	0
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified	0
Structured Attentions for Visual Question Answering	Aug 7, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering	Aug 4, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
A Simple Loss Function for Improving the Convergence and Accuracy of Visual Question Answering Models	Aug 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering	Jul 25, 2017	Image CaptioningVisual Question Answering	CodeCode Available	1
Improved Bilinear Pooling with CNNs	Jul 21, 2017	GPUQuestion Answering	—Unverified	0
Video Question Answering via Attribute-Augmented Attention Network Learning	Jul 20, 2017	AttributeInformation Retrieval	—Unverified	0
Visual Question Answering with Memory-Augmented Networks	Jul 17, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Effective Approaches to Batch Parallelization for Dynamic Neural Network Architectures	Jul 8, 2017	Mixture-of-ExpertsQuestion Answering	CodeCode Available	0
Modulating early visual processing by language	Jul 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Multi-Level Attention Networks for Visual Question Answering	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified	0
Kernel Pooling for Convolutional Neural Networks	Jul 1, 2017	Face RecognitionFine-Grained Visual Categorization	—Unverified	0
Knowledge Acquisition for Visual Question Answering via Iterative Querying	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Segmentation Guided Attention Networks for Visual Question Answering	Jul 1, 2017	Common Sense ReasoningQuestion Answering	—Unverified	0
Compact Tensor Pooling for Visual Question Answering	Jun 20, 2017	Question AnsweringVisual Question Answering	—Unverified	0
A simple neural network module for relational reasoning	Jun 5, 2017	Image Retrieval with Multi-Modal QueryQuestion Answering	CodeCode Available	0
Deep learning evaluation using deep linguistic processing	Jun 5, 2017	Deep LearningMultimodal Deep Learning	—Unverified	0
MUTAN: Multimodal Tucker Fusion for Visual Question Answering	May 18, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Learning Convolutional Text Representations for Visual Question Answering	May 18, 2017	General Classificationimage-classification	CodeCode Available	0
Survey of Visual Question Answering: Datasets and Techniques	May 10, 2017	Deep LearningQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 84 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified