SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 302 papers

Title	Date	Tasks	Status	Hype	Score
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1	5
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models	Dec 17, 2024	Multimodal Reasoning	CodeCode Available	1	5
CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models	May 1, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
MERLOT: Multimodal Neural Script Knowledge Models	Jun 4, 2021	Multimodal ReasoningVisual Commonsense Reasoning	CodeCode Available	1	5
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities	Feb 17, 2025	Code GenerationHumanEval	CodeCode Available	1	5
Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning	Jun 16, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	1	5
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning	Mar 22, 2024	Multimodal Reasoning	CodeCode Available	1	5
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark	Mar 26, 2025	DiagnosticMultimodal Reasoning	CodeCode Available	1	5
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1	5
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1	5

Show:10 25 50

← PrevPage 7 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified