Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1075 of 2177 papers

Title	Date	Tasks	Status	Hype
Toloka Visual Question Answering Benchmark	Sep 28, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Tackling VQA with Pretrained Foundation Models without Further Training	Sep 27, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Sentence Attention Blocks for Answer Grounding	Sep 20, 2023	Question AnsweringSentence	—Unverified	0
DreamLLM: Synergistic Multimodal Comprehension and Creation	Sep 20, 2023	multimodal generationVisual Question Answering	CodeCode Available	2
KOSMOS-2.5: A Multimodal Literate Model	Sep 20, 2023	document understandingmodel	—Unverified	0
Visual Question Answering in the Medical Domain	Sep 20, 2023	Contrastive LearningMedical Visual Question Answering	—Unverified	0
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models	Sep 18, 2023	Visual Question Answering	CodeCode Available	6
Syntax Tree Constrained Graph Network for Visual Question Answering	Sep 17, 2023	Question AnsweringVisual Question Answering	—Unverified	0
D3: Data Diversity Design for Systematic Generalization in Visual Question Answering	Sep 15, 2023	DiversityQuestion Answering	CodeCode Available	0
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild	Sep 14, 2023	DecoderInstruction Following	CodeCode Available	1
Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning	Sep 12, 2023	Autonomous VehiclesQuestion Answering	—Unverified	0
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified	0
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models	Sep 7, 2023	Question AnsweringVisual Question Answering	—Unverified	0
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1
Physically Grounded Vision-Language Models for Robotic Manipulation	Sep 5, 2023	Image CaptioningLanguage Modelling	—Unverified	0
Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding	Sep 1, 2023	Graph GenerationImage Captioning	CodeCode Available	0
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available	0
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception	Aug 31, 2023	Activity RecognitionHuman Activity Recognition	—Unverified	0
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory	Aug 28, 2023	Question AnsweringRetrieval	CodeCode Available	1
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP	Aug 27, 2023	Question AnsweringText Generation	CodeCode Available	1
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified	0
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5
InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4	Aug 23, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified	0
VQA Therapy: Exploring Answer Differences by Visually Grounding Answers	Aug 21, 2023	Question AnsweringVisual Question Answering	CodeCode Available	0

Show:10 25 50

← PrevPage 43 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified