SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 302 papers

Title	Date	Tasks	Status	Hype
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework	Jul 24, 2023	Contrastive LearningMultimodal Reasoning	CodeCode Available	1
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation	May 19, 2023	Image GenerationInstruction Following	CodeCode Available	1
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization	Apr 14, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1
MERLOT: Multimodal Neural Script Knowledge Models	Jun 4, 2021	Multimodal ReasoningVisual Commonsense Reasoning	CodeCode Available	1
Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning Distilled from Large Language Models	Dec 9, 2023	Multimodal Reasoning	CodeCode Available	1
DOMINO: A Dual-System for Multi-step Visual Language Reasoning	Oct 4, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified