SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 302 papers

Title	Date	Tasks	Status	Hype	Score
Neptune: The Long Orbit to Benchmarking Long Video Understanding	Dec 12, 2024	BenchmarkingMultimodal Reasoning	CodeCode Available	2	5
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement	Mar 21, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning	Apr 17, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
Efficient Reasoning with Hidden Thinking	Jan 31, 2025	DecoderMultimodal Reasoning	CodeCode Available	2	5
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action	Mar 20, 2023	Multimodal ReasoningVisual Question Answering	CodeCode Available	2	5
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2	5
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding	Mar 17, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2	5
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning	Mar 19, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	2	5
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation	Apr 13, 2025	Multimodal ReasoningRAG	CodeCode Available	2	5
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context	Jun 26, 2025	Large Language ModelMultimodal Reasoning	CodeCode Available	2	5

Show:10 25 50

← PrevPage 4 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified