Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1525 of 2177 papers

Title	Date	Tasks	Status
Visual question answering based evaluation metrics for text-to-image generation	Nov 15, 2024	Image GenerationImage Manipulation	—Unverified
COIN: Counterfactual Image Generation for VQA Interpretation	Jan 10, 2022	counterfactualImage Generation	—Unverified
CoG-DQA: Chain-of-Guiding Learning with Large Language Models for Diagram Question Answering	Jan 1, 2024	Question AnsweringVisual Question Answering	—Unverified
COCO is "ALL'' You Need for Visual Instruction Fine-tuning	Jan 17, 2024	AllImage Captioning	—Unverified
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update	Dec 18, 2023	Continual LearningQuestion Answering	—Unverified
Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning	Sep 12, 2023	Autonomous VehiclesQuestion Answering	—Unverified
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	Dec 9, 2024	Question AnsweringVisual Question Answering	—Unverified
Visual Question Answering based on Formal Logic	Nov 8, 2021	Formal LogicQuestion Answering	—Unverified
RAVEN: A Dataset for Relational and Analogical Visual rEasoNing	Mar 7, 2019	Object RecognitionQuestion Answering	—Unverified
Visual Question Answering based on Local-Scene-Aware Referring Expression Generation	Jan 22, 2021	Question AnsweringReferring Expression	—Unverified
Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling	Aug 14, 2019	Question AnsweringScene-Aware Dialogue	—Unverified
Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps	Aug 1, 2018	Cross-Lingual TransferImage Captioning	—Unverified
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified
Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI	May 12, 2024	Question AnsweringVisual Question Answering	—Unverified
CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering	Jan 2, 2025	Multiple-choiceQuestion Answering	—Unverified
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Recent, rapid advancement in visual question answering architecture: a review	Mar 2, 2022	Question AnsweringVisual Question Answering	—Unverified
Reciprocal Attention Fusion for Visual Question Answering	May 11, 2018	ObjectQuestion Answering	—Unverified
Zero-Shot Visual Question Answering	Nov 17, 2016	Question AnsweringRetrieval	—Unverified
Recurrent and Contextual Models for Visual Question Answering	Mar 23, 2017	DiversityMultiple-choice	—Unverified
Visual Question Answering for Cultural Heritage	Mar 22, 2020	Question AnsweringVisual Question Answering	—Unverified
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
WoLF: Wide-scope Large Language Model Framework for CXR Understanding	Mar 19, 2024	AnatomyInstruction Following	—Unverified
Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage Assessment with Visual Contexts	Dec 21, 2023	HallucinationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 61 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified