Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1876–1900 of 2177 papers

Title	Date	Tasks	Status	Hype
Compact Trilinear Interaction for Visual Question Answering	Sep 26, 2019	BenchmarkingKnowledge Distillation	CodeCode Available	0
UNITER: Learning UNiversal Image-TExt Representations	Sep 25, 2019	Image-text matchingImage-text Retrieval	—Unverified	0
Why Does the VQA Model Answer No?: Improving Reasoning through Visual and Linguistic Inference	Sep 25, 2019	Common Sense ReasoningQuestion Answering	—Unverified	0
Learning to Recognize the Unseen Visual Predicates	Sep 25, 2019	Question AnsweringVisual Question Answering	—Unverified	0
On Incorporating Semantic Prior Knowlegde in Deep Learning Through Embedding-Space Constraints	Sep 25, 2019	Data AugmentationQuestion Answering	—Unverified	0
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1
Unified Vision-Language Pre-Training for Image Captioning and VQA	Sep 24, 2019	DecoderImage Captioning	CodeCode Available	2
Non-monotonic Logical Reasoning Guiding Deep Learning for Explainable Visual Question Answering	Sep 23, 2019	Inductive LearningLogical Reasoning	—Unverified	0
Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network	Sep 23, 2019	Question AnsweringTriplet	—Unverified	0
Triplet-Aware Scene Graph Embeddings	Sep 19, 2019	Data AugmentationGraph Embedding	—Unverified	0
Learning Sparse Mixture of Experts for Visual Question Answering	Sep 19, 2019	Mixture-of-ExpertsQuestion Answering	—Unverified	0
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified	0
Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation	Sep 10, 2019	Common Sense ReasoningData Augmentation	—Unverified	0
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering	Sep 4, 2019	Image CaptioningObject	—Unverified	0
Adversarial Representation Learning for Text-to-Image Matching	Aug 28, 2019	Image CaptioningLanguage Modeling	—Unverified	0
Visual Question Answering using Deep Learning: A Survey and Performance Analysis	Aug 27, 2019	Common Sense ReasoningQuestion Answering	CodeCode Available	0
VL-BERT: Pre-training of Generic Visual-Linguistic Representations	Aug 22, 2019	Image-text matchingLanguage Modelling	CodeCode Available	1
LXMERT: Learning Cross-Modality Encoder Representations from Transformers	Aug 20, 2019	Language ModelingLanguage Modelling	CodeCode Available	1
What is needed for simple spatial language capabilities in VQA?	Aug 17, 2019	DiagnosticQuestion Answering	—Unverified	0
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps	Aug 17, 2019	Deep LearningProbabilistic Deep Learning	—Unverified	0
Language Features Matter: Effective Language Representations for Vision-Language Tasks	Aug 17, 2019	Image CaptioningLanguage Modelling	—Unverified	0
Fusion of Detected Objects in Text for Visual Question Answering	Aug 14, 2019	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling	Aug 14, 2019	Question AnsweringScene-Aware Dialogue	—Unverified	0
Why Does a Visual Question Have Different Answers?	Aug 12, 2019	Question AnsweringVisual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 76 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified