Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1076–1100 of 2177 papers

Title	Date	Tasks	Status
Benchmarking Vision Language Models for Cultural Understanding	Jul 15, 2024	BenchmarkingQuestion Answering	—Unverified
Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images	Jul 11, 2024	Question AnsweringSegmentation	—Unverified
Extracting Training Data from Document-Based VQA Models	Jul 11, 2024	MemorizationQuestion Answering	—Unverified
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving	Jul 9, 2024	Autonomous DrivingImage to 3D	—Unverified
Large Language Models Understand Layout	Jul 8, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge	Jul 5, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified
Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion	Jul 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available
BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs	Jul 3, 2024	Image CaptioningImage Generation	—Unverified
MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis	Jul 3, 2024	PositionQuestion Answering	—Unverified
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	Jul 3, 2024	ArticlesImage Comprehension	—Unverified
Visual Robustness Benchmark for Visual Question Answering (VQA)	Jul 3, 2024	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness	Jul 2, 2024	Image CaptioningQuestion Answering	—Unverified
Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review	Jun 28, 2024	Active LearningImage Captioning	—Unverified
The Illusion of Competence: Evaluating the Effect of Explanations on Users' Mental Models of Visual Question Answering Systems	Jun 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts	Jun 27, 2024	Decision MakingLogical Reasoning	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation	Jun 27, 2024	Continual LearningQuestion Answering	CodeCode Available
Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts	Jun 25, 2024	FairnessQuestion Answering	CodeCode Available
Claude 3.5 Sonnet Model Card Addendum	Jun 24, 2024	Code GenerationMMR total	—Unverified
GPT-4V Explorations: Mining Autonomous Driving	Jun 24, 2024	Autonomous DrivingDecision Making	—Unverified
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs	Jun 24, 2024	Question AnsweringVisual Question Answering	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified

Show:10 25 50

← PrevPage 44 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified