Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 302 papers

Title	Date	Tasks	Status	Hype
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified	0
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified	0
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models	May 21, 2025	Multimodal Reasoning	CodeCode Available	0
MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models	May 20, 2025	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning	May 20, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2
Emerging Properties in Unified Multimodal Pretraining	May 20, 2025	Image Editing	CodeCode Available	9
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning	May 20, 2025	HallucinationMathematical Reasoning	CodeCode Available	5
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information	May 19, 2025	FairnessMultimodal Reasoning	CodeCode Available	1
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified	0
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning	May 19, 2025	Multimodal ReasoningScene Understanding	—Unverified	0
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified	0
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision	May 19, 2025	MathMathematical Reasoning	CodeCode Available	4
KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection	May 18, 2025	Fake News DetectionMisinformation	CodeCode Available	0
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified	0
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging	May 17, 2025	Image SegmentationLanguage Modeling	—Unverified	0
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning	May 12, 2025	Multimodal Reasoning	—Unverified	0
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified	0
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified	0
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models	May 8, 2025	Multimodal Reasoning	CodeCode Available	4
Q-Heart: ECG Question Answering via Knowledge-Informed Multimodal LLMs	May 7, 2025	Electrocardiography (ECG)Language Modeling	—Unverified	0

Show:10 25 50

← PrevPage 4 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified