Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 2177 papers

Title	Date	Tasks	Status	Hype
Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations	Sep 27, 2024	Chart Question AnsweringQuestion Answering	—Unverified	0
Emu3: Next-Token Prediction is All You Need	Sep 27, 2024	All	CodeCode Available	3
Robotic Environmental State Recognition with Pre-Trained Vision-Language Models and Black-Box Optimization	Sep 26, 2024	Image to textImage-to-Text Retrieval	—Unverified	0
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified	0
ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue	Sep 26, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified	0
Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE	Sep 26, 2024	image-classificationImage Classification	CodeCode Available	1
A Unified Hallucination Mitigation Framework for Large Vision-Language Models	Sep 24, 2024	HallucinationQuestion Answering	CodeCode Available	0
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models	Sep 23, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified	0
Phantom of Latent for Large Language and Vision Models	Sep 23, 2024	Visual Question Answering	CodeCode Available	2
Can CLIP Count Stars? An Empirical Study on Quantity Bias in CLIP	Sep 23, 2024	Image GenerationQuestion Answering	—Unverified	0
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified	0
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering	Sep 19, 2024	HallucinationHallucination Evaluation	CodeCode Available	1
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified	0
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution	Sep 18, 2024	Natural Language Visual Grounding	CodeCode Available	11
Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis	Sep 17, 2024	In-Context LearningQuestion Answering	—Unverified	0
Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs	Sep 17, 2024	Question AnsweringToken Reduction	CodeCode Available	1
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified	0
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available	0
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
Explore the Hallucination on Low-level Perception for MLLMs	Sep 15, 2024	HallucinationQuestion Answering	—Unverified	0
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
One missing piece in Vision and Language: A Survey on Comics Understanding	Sep 14, 2024	document understandingimage-classification	CodeCode Available	2
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Sep 11, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	Sep 11, 2024	Image CaptioningQuestion Answering	CodeCode Available	0
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning	Sep 10, 2024	Question AnsweringVisual Question Answering	—Unverified	0
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis	Sep 10, 2024	Contrastive LearningCross-Modal Retrieval	CodeCode Available	2
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified	0
LIME: Less Is More for MLLM Evaluation	Sep 10, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework	Sep 9, 2024	Computational EfficiencyCross-Modal Retrieval	CodeCode Available	1
Breaking Neural Network Scaling Laws with Modularity	Sep 9, 2024	Question AnsweringVisual Question Answering	—Unverified	0
POINTS: Improving Your Vision-language Model with Affordable Strategies	Sep 7, 2024	Language ModelingLanguage Modelling	—Unverified	0
COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes	Sep 6, 2024	Multiple-choiceQuestion Answering	CodeCode Available	0
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving	Sep 5, 2024	Autonomous DrivingMotion Planning	—Unverified	0
MOSMOS: Multi-organ segmentation facilitated by medical report supervision	Sep 4, 2024	Contrastive LearningOrgan Segmentation	—Unverified	0
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	Sep 3, 2024	In-Context LearningLanguage Modeling	CodeCode Available	0
Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models	Sep 3, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Kvasir-VQA: A Text-Image Pair GI Tract Dataset	Sep 2, 2024	Image CaptioningImage Generation	CodeCode Available	0
Look, Learn and Leverage (L^3): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment	Aug 30, 2024	Question AnsweringRepresentation Learning	—Unverified	0
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering	Aug 30, 2024	DecoderLanguage Modeling	—Unverified	0
M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation	Aug 29, 2024	Instruction FollowingMedical Report Generation	—Unverified	0
CogVLM2: Visual Language Models for Image and Video Understanding	Aug 29, 2024	MM-VetMVBench	CodeCode Available	9
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail	Aug 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Can SAR improve RSVQA performance?	Aug 28, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Multi-Modal Instruction-Tuning Small-Scale Language-and-Vision Assistant for Semiconductor Electron Micrograph Analysis	Aug 27, 2024	Instruction FollowingQuestion Answering	—Unverified	0
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified	0
Evaluating Attribute Comprehension in Large Vision-Language Models	Aug 25, 2024	AttributeImage-text matching	CodeCode Available	0
Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering	Aug 24, 2024	knowledge editingOpen-Domain Question Answering	—Unverified	0
Foundational Model for Electron Micrograph Analysis: Instruction-Tuning Small-Scale Language-and-Vision Assistant for Enterprise Adoption	Aug 23, 2024	Instruction FollowingKnowledge Distillation	—Unverified	0
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 11 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified