SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 302 papers

Title	Date	Tasks	Status	Hype	Score
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified	0	0
VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs	Mar 25, 2025	DiversityMultimodal Reasoning	—Unverified	0	0
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning	Jun 12, 2025	AttributeMultimodal Reasoning	—Unverified	0	0
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified	0	0
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified	0	0
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified	0	0
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified	0	0
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified	0	0
Advancing Conversational Diagnostic AI with Multimodal Reasoning	May 6, 2025	DiagnosticManagement	—Unverified	0	0
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning	May 12, 2025	Multimodal Reasoning	—Unverified	0	0

Show:10 25 50

← PrevPage 23 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified