Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1526–1550 of 2177 papers

Title	Date	Tasks	Status
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder	Jul 13, 2020	Question AnsweringVisual Grounding	—Unverified
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment	Mar 14, 2022	parameter-efficient fine-tuningQuestion Answering	—Unverified
Visual question answering: from early developments to recent advances -- a survey	Jan 7, 2025	DescriptiveNatural Language Understanding	—Unverified
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering	Sep 21, 2020	Anomaly DetectionQuestion Answering	—Unverified
Visual Question Answering in Ophthalmology: A Progressive and Practical Perspective	Oct 22, 2024	Question AnsweringVisual Question Answering	—Unverified
CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments	Mar 5, 2024	Language ModellingLarge Language Model	—Unverified
ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding	Jul 7, 2025	HallucinationQuestion Answering	—Unverified
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck	Jun 25, 2023	object-detectionObject Detection	—Unverified
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment	Dec 12, 2023	image-classificationImage Classification	—Unverified
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering	Nov 19, 2022	Continual LearningQuestion Answering	—Unverified
Claude 3.5 Sonnet Model Card Addendum	Jun 24, 2024	Code GenerationMMR total	—Unverified
Rephrasing visual questions by specifying the entropy of the answer distribution	Apr 10, 2020	Question AnsweringVisual Question Answering	—Unverified
Representation, Learning and Reasoning on Spatial Language for Downstream NLP Tasks	Nov 1, 2020	Common Sense ReasoningQuestion Answering	—Unverified
Representing Movie Characters in Dialogues	Nov 1, 2019	Question AnsweringRelation Classification	—Unverified
Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"	May 21, 2018	Question AnsweringVisual Question Answering	—Unverified
RepsNet: Combining Vision with Language for Automated Medical Reports	Sep 27, 2022	Contrastive LearningDecoder	—Unverified
RescueADI: Adaptive Disaster Interpretation in Remote Sensing Images with Autonomous Agents	Oct 17, 2024	Question AnsweringTask Planning	—Unverified
Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks	Feb 13, 2024	Language ModelingLanguage Modelling	—Unverified
CLAMP: Contrastive LAnguage Model Prompt-tuning	Dec 4, 2023	Contrastive LearningImage Captioning	—Unverified
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization	May 24, 2022	Image CaptioningOut-of-Distribution Generalization	—Unverified
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified
VrR-VG: Refocusing Visually-Relevant Relationships	Feb 1, 2019	Image CaptioningQuestion Answering	—Unverified
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering	Aug 30, 2024	DecoderLanguage Modeling	—Unverified
CIC: A Framework for Culturally-Aware Image Captioning	Feb 8, 2024	DescriptiveImage Captioning	—Unverified
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines	Feb 23, 2025	Answer GenerationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 62 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified