SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 181–190 of 302 papers

Title	Date	Tasks	Status	Hype	Score
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified	0	0
NL-Eye: Abductive NLI for Images	Oct 3, 2024	Language ModelingLanguage Modelling	—Unverified	0	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0	0
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified	0	0
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains	May 6, 2025	Multimodal Reasoning	—Unverified	0	0
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified	0	0
On scalable oversight with weak LLMs judging strong LLMs	Jul 5, 2024	Multimodal ReasoningQuestion Answering	—Unverified	0	0
ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning	May 25, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0	0
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought	May 29, 2025	Multimodal Reasoning	—Unverified	0	0
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified	0	0

Show:10 25 50

← PrevPage 19 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified