SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 121–130 of 302 papers

Title	Date	Tasks	Status	Hype
Kimi-VL Technical Report	Apr 10, 2025	Long-Context UnderstandingMathematical Reasoning	CodeCode Available	5
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1
Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought	Apr 8, 2025	Language ModelingLanguage Modelling	CodeCode Available	7
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified	0
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)	Apr 4, 2025	Multimodal Reasoning	—Unverified	0
Affordable AI Assistants with Knowledge Graph of Thoughts	Apr 3, 2025	Knowledge GraphsLLM real-life tasks	CodeCode Available	3
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning	Apr 1, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2
Agentic Multimodal AI for Hyperpersonalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework	Apr 1, 2025	Decision MakingIn-Context Learning	—Unverified	0
Boosting MLLM Reasoning with Text-Debiased Hint-GRPO	Mar 31, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 13 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified