Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2051–2075 of 2177 papers

Title	Date	Tasks	Status	Hype
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1
IQA: Visual Question Answering in Interactive Environments	Dec 9, 2017	NavigateReinforcement Learning	CodeCode Available	0
Learning by Asking Questions	Dec 4, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks	Dec 3, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Multimodal Learning and Reasoning for Visual Question Answering	Dec 1, 2017	Question AnsweringRepresentation Learning	—Unverified	0
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering	Dec 1, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end	Nov 28, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Locally Smoothed Neural Networks	Nov 22, 2017	Face VerificationQuestion Answering	CodeCode Available	0
Visual Question Answering as a Meta Learning Task	Nov 22, 2017	Meta-LearningQuestion Answering	—Unverified	0
Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning	Nov 21, 2017	Question AnsweringReinforcement Learning	—Unverified	0
Adversarial Attacks Beyond the Image Space	Nov 20, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments	Nov 20, 2017	Reinforcement LearningTranslation	CodeCode Available	1
Co-attending Regions and Detections with Multi-modal Multiplicative Embedding for VQA	Nov 18, 2017	FormQuestion Answering	CodeCode Available	0
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering	Nov 18, 2017	FormVisual Question Answering	CodeCode Available	0
A Novel Framework for Robustness Analysis of Visual QA Models	Nov 16, 2017	Question AnsweringVisual Question Answering	—Unverified	0
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available	0
Active Learning for Visual Question Answering: An Empirical Study	Nov 6, 2017	Active LearningVisual Question Answering	CodeCode Available	0
iVQA: Inverse Visual Question Answering	Oct 10, 2017	Question AnsweringQuestion Generation	—Unverified	0
Fooling Vision and Language Models Despite Localization and Attention Mechanism	Sep 25, 2017	Dense CaptioningNatural Language Understanding	—Unverified	0
Survey of Recent Advances in Visual Question Answering	Sep 24, 2017	Question AnsweringSurvey	—Unverified	0
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified	0
Visual Question Generation as Dual Task of Visual Question Answering	Sep 21, 2017	Question AnsweringQuestion Generation	—Unverified	0
Exploring Human-like Attention Supervision in Visual Question Answering	Sep 19, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Robustness Analysis of Visual QA Models by Basic Questions	Sep 14, 2017	Question AnsweringVisual Question Answering	—Unverified	0
Memory Augmented Neural Networks for Natural Language Processing	Sep 1, 2017	AI AgentLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 83 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified