Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 2177 papers

Title	Date	Tasks	Status
PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly	Jun 10, 2025	Question AnsweringScene Understanding	—Unverified
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning	Jun 8, 2025	Medical Report GenerationQuestion Answering	—Unverified
Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning	Jun 8, 2025	AttributeHallucination	—Unverified
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering	Jun 7, 2025	In-Context LearningMeta-Learning	—Unverified
Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems	Jun 5, 2025	DiagnosticMultimodal Deep Learning	—Unverified
TextVidBench: A Benchmark for Long Video Scene Text Understanding	Jun 5, 2025	Prompt EngineeringQuestion Answering	—Unverified
ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding	Jun 4, 2025	NegationNegation Detection	—Unverified
Learning Sparsity for Effective and Efficient Music Performance Question Answering	Jun 2, 2025	Audio-visual Question AnsweringQuestion Answering	—Unverified
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified
Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering	Jun 1, 2025	AllMME	—Unverified
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck	May 30, 2025	Question AnsweringVisual Question Answering	—Unverified
Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models	May 30, 2025	Image CaptioningQuestion Answering	—Unverified
MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility	May 30, 2025	Decision MakingMedical Diagnosis	—Unverified
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation	May 29, 2025	Question AnsweringRAG	—Unverified
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available
QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining	May 29, 2025	Question AnsweringRepresentation Learning	CodeCode Available
Multi-Sourced Compositional Generalization in Visual Question Answering	May 29, 2025	Question AnsweringVisual Question Answering	CodeCode Available
NegVQA: Can Vision Language Models Understand Negation?	May 28, 2025	NegationQuestion Answering	—Unverified
Music's Multimodal Complexity in AVQA: Why We Need More than General Multimodal LLMs	May 27, 2025	Audio-visual Question AnsweringQuestion Answering	CodeCode Available
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified
MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering	May 26, 2025	Continual LearningQuestion Answering	CodeCode Available
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance	May 25, 2025	Caption GenerationQuestion Answering	—Unverified
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays	May 23, 2025	DiagnosticQuestion Answering	CodeCode Available
CT-Agent: A Multimodal-LLM Agent for 3D CT Radiology Question Answering	May 22, 2025	Computed Tomography (CT)Question Answering	—Unverified
Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation	May 22, 2025	HallucinationImage Captioning	—Unverified
A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering	May 22, 2025	counterfactualMedical Visual Question Answering	—Unverified
Zero-Shot Anomaly Detection in Battery Thermal Images Using Visual Question Answering with Prior Knowledge	May 22, 2025	Anomaly DetectionQuestion Answering	—Unverified
Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports	May 22, 2025	Answer GenerationQuestion Answering	—Unverified
Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding	May 22, 2025	Causal InferenceHallucination	—Unverified
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets	May 21, 2025	Dataset GenerationDescriptive	—Unverified
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning	May 21, 2025	Computational EfficiencyDiagnostic	—Unverified
Visual Question Answering on Multiple Remote Sensing Image Modalities	May 21, 2025	Question AnsweringVisual Question Answering	—Unverified
SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks	May 21, 2025	image-classificationImage Classification	CodeCode Available
Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs	May 21, 2025	BenchmarkingQuestion Answering	CodeCode Available
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified
TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models	May 21, 2025	Human AgingQuestion Answering	CodeCode Available
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified
Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method	May 20, 2025	HallucinationObject Localization	—Unverified
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding	May 20, 2025	Image CaptioningQuestion Answering	CodeCode Available
Understanding Complexity in VideoQA via Visual Program Generation	May 19, 2025	Code GenerationQuestion Answering	—Unverified
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation	May 16, 2025	BenchmarkingEthics	CodeCode Available
TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs	May 16, 2025	BenchmarkingQuestion Answering	CodeCode Available
End-to-End Vision Tokenizer Tuning	May 15, 2025	Image GenerationQuestion Answering	—Unverified
Variational Visual Question Answering	May 14, 2025	Question AnsweringVisual Question Answering	—Unverified
Visually Interpretable Subtask Reasoning for Visual Question Answering	May 12, 2025	AttributeObject Recognition	CodeCode Available

Show:10 25 50

← PrevPage 14 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified