Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 2177 papers

Title	Date	Tasks	Status
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration	May 11, 2025	BenchmarkingDescriptive	—Unverified
OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval	May 10, 2025	Cross-Modal RetrievalQuestion Answering	—Unverified
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving	May 9, 2025	Autonomous DrivingBackdoor Attack	—Unverified
SITE: towards Spatial Intelligence Thorough Evaluation	May 8, 2025	Question AnsweringSpatial Reasoning	—Unverified
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models	May 8, 2025	Active Learningcross-modal alignment	CodeCode Available
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks	May 5, 2025	Question AnsweringSemantic Communication	—Unverified
Structure Causal Models and LLMs Integration in Medical Visual Question Answering	May 5, 2025	Causal InferenceMedical Visual Question Answering	—Unverified
Sim2Real Transfer for Vision-Based Grasp Verification	May 5, 2025	Objectobject-detection	CodeCode Available
Compositional Image-Text Matching and Retrieval by Grounding Entities	May 4, 2025	Image CaptioningImage-text matching	CodeCode Available
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs	May 3, 2025	ChunkingQuestion Answering	—Unverified
Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings	May 3, 2025	Question AnsweringVisual Question Answering	—Unverified
Grounding Task Assistance with Multimodal Cues from a Single Demonstration	May 2, 2025	Question AnsweringVisual Question Answering	—Unverified
Transferable Adversarial Attacks on Black-Box Vision-Language Models	May 2, 2025	Image CaptioningObject Recognition	—Unverified
AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care	May 1, 2025	Language ModelingLanguage Modelling	CodeCode Available
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation	May 1, 2025	Question AnsweringSpecificity	CodeCode Available
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding	Apr 30, 2025	Medical Question AnsweringQuestion Answering	—Unverified
LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs	Apr 29, 2025	BenchmarkingFace Generation	—Unverified
SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning	Apr 28, 2025	Question AnsweringSpatial Reasoning	—Unverified
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction	Apr 24, 2025	Conformal PredictionHallucination	—Unverified
TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance	Apr 23, 2025	Question AnsweringScene Understanding	—Unverified
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available
Neglected Risks: The Disturbing Reality of Children's Images in Datasets and the Urgent Call for Accountability	Apr 20, 2025	Question AnsweringVisual Question Answering	—Unverified
Hadamard product in deep learning: Introduction, Advances and Challenges	Apr 17, 2025	Computational EfficiencyDeep Learning	—Unverified
Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets	Apr 16, 2025	DiversityMedical Visual Question Answering	—Unverified
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching	Apr 16, 2025	Image AugmentationImage Generation	—Unverified
QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models	Apr 15, 2025	Question AnsweringVisual Question Answering	CodeCode Available
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation	Apr 15, 2025	Image CaptioningQuestion Answering	—Unverified
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks	Apr 14, 2025	EthicsFairness	—Unverified
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents	Apr 14, 2025	Question AnsweringRAG	—Unverified
MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework	Apr 14, 2025	Question AnsweringRAG	—Unverified
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
AstroLLaVA: towards the unification of astronomical data and natural language	Apr 11, 2025	AstronomyImage Captioning	—Unverified
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos	Apr 10, 2025	Question AnsweringVideo Generation	—Unverified
Data Metabolism: An Efficient Data Design Schema For Vision Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	—Unverified
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs	Apr 10, 2025	Ensemble LearningPosition	—Unverified
Resource-efficient Inference with Foundation Model Programs	Apr 9, 2025	modelQuestion Answering	CodeCode Available
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model	Apr 7, 2025	Image Captioningimage-classification	—Unverified
Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data	Apr 7, 2025	Question AnsweringVisual Question Answering	CodeCode Available
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion	Apr 4, 2025	DiagnosticMedical Visual Question Answering	—Unverified
QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning	Apr 4, 2025	Data AugmentationImage Generation	—Unverified
SocialGesture: Delving into Multi-person Gesture Understanding	Apr 3, 2025	Gesture RecognitionQuestion Answering	—Unverified
SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering	Apr 1, 2025	cross-modal alignmentQuestion Answering	—Unverified
MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving	Apr 1, 2025	Autonomous DrivingPrompt Learning	—Unverified
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language	Mar 31, 2025	FormQuestion Answering	CodeCode Available
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified
JEEM: Vision-Language Understanding in Four Arabic Dialects	Mar 27, 2025	Image CaptioningQuestion Answering	—Unverified
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning	Mar 27, 2025	Image GenerationObject	—Unverified
Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering	Mar 26, 2025	DiagnosticHallucination	—Unverified
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs	Mar 26, 2025	HallucinationHallucination Evaluation	—Unverified
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields	Mar 26, 2025	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 15 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified