SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 302 papers

Title	Date	Tasks	Status	Hype
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified	0
MiMo-VL Technical Report	Jun 4, 2025	Multimodal Reasoning	CodeCode Available	4
RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought	Jun 4, 2025	Multimodal ReasoningReasoning Segmentation	—Unverified	0
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning	Jun 2, 2025	Multimodal Reasoningreinforcement-learning	—Unverified	0
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking	Jun 1, 2025	4kMath	CodeCode Available	0
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents	May 30, 2025	BenchmarkingBlocking	CodeCode Available	2
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model	May 29, 2025	HallucinationLanguage Modeling	—Unverified	0
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 5 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified