Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2051–2100 of 2177 papers

Title	Date	Tasks	Status	Hype
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1
IQA: Visual Question Answering in Interactive Environments	Dec 9, 2017	NavigateReinforcement Learning	CodeCode Available	0
Learning by Asking Questions	Dec 4, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks	Dec 3, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified	0
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering	Dec 1, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end	Nov 28, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Locally Smoothed Neural Networks	Nov 22, 2017	Face VerificationQuestion Answering	CodeCode Available	0
Visual Question Answering as a Meta Learning Task	Nov 22, 2017	Meta-LearningQuestion Answering	—Unverified	0
Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning	Nov 21, 2017	Question AnsweringReinforcement Learning	—Unverified	0
Adversarial Attacks Beyond the Image Space	Nov 20, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments	Nov 20, 2017	Reinforcement LearningTranslation	CodeCode Available	1
Co-attending Regions and Detections with Multi-modal Multiplicative Embedding for VQA	Nov 18, 2017	FormQuestion Answering	CodeCode Available	0
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering	Nov 18, 2017	FormVisual Question Answering	CodeCode Available	0
A Novel Framework for Robustness Analysis of Visual QA Models	Nov 16, 2017	Question AnsweringVisual Question Answering	—Unverified	0
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Active Learning for Visual Question Answering: An Empirical Study	Nov 6, 2017	Active LearningVisual Question Answering	CodeCode Available	0
iVQA: Inverse Visual Question Answering	Oct 10, 2017	Question AnsweringQuestion Generation	—Unverified	0
Fooling Vision and Language Models Despite Localization and Attention Mechanism	Sep 25, 2017	Dense CaptioningNatural Language Understanding	—Unverified	0
Survey of Recent Advances in Visual Question Answering	Sep 24, 2017	Question AnsweringSurvey	—Unverified	0
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified	0
Visual Question Generation as Dual Task of Visual Question Answering	Sep 21, 2017	Question AnsweringQuestion Generation	—Unverified	0
Exploring Human-like Attention Supervision in Visual Question Answering	Sep 19, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Robustness Analysis of Visual QA Models by Basic Questions	Sep 14, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Memory Augmented Neural Networks for Natural Language Processing	Sep 1, 2017	AI AgentLanguage Modeling	—Unverified	0
Data Augmentation for Visual Question Answering	Sep 1, 2017	Data AugmentationGeneral Classification	—Unverified	0
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation	Aug 15, 2017	Language ModelingLanguage Modelling	CodeCode Available	0
Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering	Aug 10, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge	Aug 9, 2017	GPUVisual Question Answering	CodeCode Available	0
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified	0
Structured Attentions for Visual Question Answering	Aug 7, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering	Aug 4, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
A Simple Loss Function for Improving the Convergence and Accuracy of Visual Question Answering Models	Aug 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering	Jul 25, 2017	Image CaptioningVisual Question Answering	CodeCode Available	1
Improved Bilinear Pooling with CNNs	Jul 21, 2017	GPUQuestion Answering	—Unverified	0
Video Question Answering via Attribute-Augmented Attention Network Learning	Jul 20, 2017	AttributeInformation Retrieval	—Unverified	0
Visual Question Answering with Memory-Augmented Networks	Jul 17, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Effective Approaches to Batch Parallelization for Dynamic Neural Network Architectures	Jul 8, 2017	Mixture-of-ExpertsQuestion Answering	CodeCode Available	0
Modulating early visual processing by language	Jul 2, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Multi-Level Attention Networks for Visual Question Answering	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified	0
Kernel Pooling for Convolutional Neural Networks	Jul 1, 2017	Face RecognitionFine-Grained Visual Categorization	—Unverified	0
Knowledge Acquisition for Visual Question Answering via Iterative Querying	Jul 1, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Segmentation Guided Attention Networks for Visual Question Answering	Jul 1, 2017	Common Sense ReasoningQuestion Answering	—Unverified	0
Compact Tensor Pooling for Visual Question Answering	Jun 20, 2017	Question AnsweringVisual Question Answering	—Unverified	0
A simple neural network module for relational reasoning	Jun 5, 2017	Image Retrieval with Multi-Modal QueryQuestion Answering	CodeCode Available	0
Deep learning evaluation using deep linguistic processing	Jun 5, 2017	Deep LearningMultimodal Deep Learning	—Unverified	0
MUTAN: Multimodal Tucker Fusion for Visual Question Answering	May 18, 2017	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available	0
Learning Convolutional Text Representations for Visual Question Answering	May 18, 2017	General Classificationimage-classification	CodeCode Available	0
Survey of Visual Question Answering: Datasets and Techniques	May 10, 2017	Deep LearningQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 42 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified