SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 302 papers

Title	Date	Tasks	Status	Hype
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency	Jun 10, 2025	Multimodal Reasoning	—Unverified	0
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
Play to Generalize: Learning to Reason Through Game Play	Jun 9, 2025	Domain GeneralizationMath	CodeCode Available	2
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations	Jun 9, 2025	Large Language ModelMultimodal Reasoning	—Unverified	0
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning	Jun 9, 2025	MathMathematical Reasoning	CodeCode Available	1
Learning Compact Vision Tokens for Efficient Large Multimodal Models	Jun 8, 2025	Multimodal ReasoningToken Reduction	CodeCode Available	1
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1
MuSciClaims: Multimodal Scientific Claim Verification	Jun 5, 2025	ArticlesClaim Verification	—Unverified	0
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation	Jun 5, 2025	Decision MakingMultimodal Reasoning	—Unverified	0
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos	Jun 4, 2025	Multimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 4 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified