Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 302 papers

Title	Date	Tasks	Status	Hype
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified	0
MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration	May 29, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought	May 29, 2025	Multimodal Reasoning	—Unverified	0
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified	0
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified	0
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified	0
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified	0
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified	0
VidText: Towards Comprehensive Evaluation for Video Text Understanding	May 28, 2025	Multimodal ReasoningOptical Character Recognition (OCR)	CodeCode Available	1
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?	May 27, 2025	Multimodal Reasoning	CodeCode Available	2
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified	0
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning	May 26, 2025	Meta-LearningMultimodal Reasoning	—Unverified	0
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified	0
Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval	May 26, 2025	Contrastive LearningImage Retrieval	—Unverified	0
Visual Abstract Thinking Empowers Multimodal Reasoning	May 26, 2025	Multimodal ReasoningRelational Reasoning	CodeCode Available	1
Agentic 3D Scene Generation with Spatially Contextualized VLMs	May 26, 2025	Multimodal ReasoningScene Generation	—Unverified	0
VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use	May 25, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	2
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards	May 25, 2025	Image CaptioningMultimodal Reasoning	CodeCode Available	1
ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning	May 25, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified	0
ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation	May 24, 2025	BenchmarkingChart Understanding	CodeCode Available	3
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified	0
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models	May 23, 2025	DiagnosticHallucination	—Unverified	0
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified	0
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified	0
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified	0
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models	May 21, 2025	Multimodal Reasoning	CodeCode Available	0
MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models	May 20, 2025	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning	May 20, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2
Emerging Properties in Unified Multimodal Pretraining	May 20, 2025	Image Editing	CodeCode Available	9
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning	May 20, 2025	HallucinationMathematical Reasoning	CodeCode Available	5
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information	May 19, 2025	FairnessMultimodal Reasoning	CodeCode Available	1
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified	0
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning	May 19, 2025	Multimodal ReasoningScene Understanding	—Unverified	0
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified	0
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision	May 19, 2025	MathMathematical Reasoning	CodeCode Available	4
KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection	May 18, 2025	Fake News DetectionMisinformation	CodeCode Available	0
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified	0
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging	May 17, 2025	Image SegmentationLanguage Modeling	—Unverified	0
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning	May 12, 2025	Multimodal Reasoning	—Unverified	0
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified	0
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified	0
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models	May 8, 2025	Multimodal Reasoning	CodeCode Available	4
Q-Heart: ECG Question Answering via Knowledge-Informed Multimodal LLMs	May 7, 2025	Electrocardiography (ECG)Language Modeling	—Unverified	0

Show:10 25 50

← PrevPage 2 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified