SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 302 papers

Title	Date	Tasks	Status	Hype	Score
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding	Mar 17, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2	5
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation	Apr 13, 2025	Multimodal ReasoningRAG	CodeCode Available	2	5
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering	Sep 20, 2022	Multimodal Deep LearningMultimodal Reasoning	CodeCode Available	2	5
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?	Mar 8, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	2	5
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning	Apr 1, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2	5
Neptune: The Long Orbit to Benchmarking Long Video Understanding	Dec 12, 2024	BenchmarkingMultimodal Reasoning	CodeCode Available	2	5
Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning	May 20, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2	5
Distill Visual Chart Reasoning Ability from LLMs to MLLMs	Oct 24, 2024	Multimodal ReasoningVisual Reasoning	CodeCode Available	2	5
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning	Mar 19, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	2	5
Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset	Feb 22, 2024	DiversityMath	CodeCode Available	2	5

Show:10 25 50

← PrevPage 5 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified