Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1425 of 2177 papers

Title	Date	Tasks	Status
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model	Apr 7, 2025	Image Captioningimage-classification	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
RSVQA: Visual Question Answering for Remote Sensing Data	Mar 16, 2020	Land Cover ClassificationObject Counting	—Unverified
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering	Nov 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering	Jan 25, 2022	Question AnsweringVisual Question Answering	—Unverified
Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis	Jan 26, 2025	ArticlesHallucination	—Unverified
Scallop: From Probabilistic Deductive Databases to Scalable Differentiable Reasoning	Dec 1, 2021	Logical ReasoningQuestion Answering	—Unverified
Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning	Feb 19, 2025	Autonomous DrivingBench2Drive	—Unverified
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering	Dec 16, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Scene Graph Generation with Geometric Context	Nov 25, 2021	Activity RecognitionGraph Generation	—Unverified
Scene Graph Reasoning for Visual Question Answering	Jul 2, 2020	NavigateQuestion Answering	—Unverified
A Comprehensive Survey of Scene Graphs: Generation and Application	Mar 17, 2021	Image CaptioningQuestion Answering	—Unverified
Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations	Jun 21, 2025	Question AnsweringScene Understanding	—Unverified
Scene Understanding Enabled Semantic Communication with Open Channel Coding	Jan 24, 2025	Question AnsweringScene Understanding	—Unverified
SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering	Apr 4, 2023	counterfactualMetric Learning	—Unverified
SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes	Aug 21, 2023	AttributeQuestion Answering	—Unverified
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs	Aug 21, 2024	Contrastive LearningLanguage Modeling	—Unverified
Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge	Jul 5, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors	Mar 18, 2024	HallucinationMotion Planning	—Unverified
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified
Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding	May 22, 2025	Causal InferenceHallucination	—Unverified
Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models	Nov 7, 2024	Adversarial AttackImage Captioning	—Unverified

Show:10 25 50

← PrevPage 57 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified