Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 302 papers

Title	Date	Tasks	Status	Hype
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought	May 29, 2025	Multimodal Reasoning	—Unverified	0
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified	0
MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration	May 29, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified	0
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified	0
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified	0
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified	0
VidText: Towards Comprehensive Evaluation for Video Text Understanding	May 28, 2025	Multimodal ReasoningOptical Character Recognition (OCR)	CodeCode Available	1
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?	May 27, 2025	Multimodal Reasoning	CodeCode Available	2
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified	0
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning	May 26, 2025	Meta-LearningMultimodal Reasoning	—Unverified	0
Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval	May 26, 2025	Contrastive LearningImage Retrieval	—Unverified	0
Visual Abstract Thinking Empowers Multimodal Reasoning	May 26, 2025	Multimodal ReasoningRelational Reasoning	CodeCode Available	1
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified	0
Agentic 3D Scene Generation with Spatially Contextualized VLMs	May 26, 2025	Multimodal ReasoningScene Generation	—Unverified	0
VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use	May 25, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	2
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards	May 25, 2025	Image CaptioningMultimodal Reasoning	CodeCode Available	1
ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning	May 25, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified	0
ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation	May 24, 2025	BenchmarkingChart Understanding	CodeCode Available	3
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified	0
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models	May 23, 2025	DiagnosticHallucination	—Unverified	0
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified