Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 2177 papers

Title	Date	Tasks	Status	Hype
Treble Counterfactual VLMs: A Causal Approach to Hallucination	Mar 8, 2025	Autonomous Drivingcounterfactual	CodeCode Available	0
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models	Mar 8, 2025	Caption GenerationQuestion Answering	—Unverified	0
SplatTalk: 3D VQA with Gaussian Splatting	Mar 8, 2025	3DGSQuestion Answering	—Unverified	0
MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering	Mar 8, 2025	Answer GenerationMixture-of-Experts	—Unverified	0
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model	Mar 6, 2025	General KnowledgeImage Captioning	CodeCode Available	2
Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation	Mar 6, 2025	Active LearningImage Segmentation	—Unverified	0
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM	Mar 6, 2025	Anomaly DetectionLanguage Modeling	CodeCode Available	2
Question-Aware Gaussian Experts for Audio-Visual Question Answering	Mar 6, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations	Mar 5, 2025	Question AnsweringVisual Question Answering	CodeCode Available	0
OWLViz: An Open-World Benchmark for Visual Question Answering	Mar 4, 2025	Question AnsweringVisual Question Answering	—Unverified	0
BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA	Mar 4, 2025	Medical DiagnosisQuestion Answering	CodeCode Available	0
Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models	Mar 3, 2025	MemorizationQuestion Answering	CodeCode Available	0
FunBench: Benchmarking Fundus Reading Skills of MLLMs	Mar 2, 2025	AnatomyBenchmarking	—Unverified	0
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified	0
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering	Feb 28, 2025	Question AnsweringRAG	—Unverified	0
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models	Feb 28, 2025	Decision MakingHallucination	CodeCode Available	0
Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios	Feb 27, 2025	Data IntegrationQuestion Answering	—Unverified	0
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning	Feb 26, 2025	Domain GeneralizationMedical Image Analysis	—Unverified	0
Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation	Feb 26, 2025	Question Answeringvalid	—Unverified	0
Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference	Feb 25, 2025	Question AnsweringRAG	CodeCode Available	0
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA	Feb 25, 2025	Question AnsweringRetrieval	—Unverified	0
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs	Feb 24, 2025	Question AnsweringVisual Question Answering	CodeCode Available	3
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified	0
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines	Feb 23, 2025	Answer GenerationLanguage Modeling	—Unverified	0
Tracking the Copyright of Large Vision-Language Models through Parameter Learning Adversarial Images	Feb 23, 2025	Adversarial AttackQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 9 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified