Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 302 papers

Title	Date	Tasks	Status	Hype
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts	Jun 12, 2025	DiversityMinecraft	—Unverified	0
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning	Jun 12, 2025	AttributeMultimodal Reasoning	—Unverified	0
MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning	Jun 12, 2025	Image GenerationMultimodal Reasoning	—Unverified	0
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing	Jun 11, 2025	Multimodal ReasoningSpatial Reasoning	CodeCode Available	2
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified	0
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency	Jun 10, 2025	Multimodal Reasoning	—Unverified	0
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning	Jun 9, 2025	MathMathematical Reasoning	CodeCode Available	1
Play to Generalize: Learning to Reason Through Game Play	Jun 9, 2025	Domain GeneralizationMath	CodeCode Available	2
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations	Jun 9, 2025	Large Language ModelMultimodal Reasoning	—Unverified	0
Learning Compact Vision Tokens for Efficient Large Multimodal Models	Jun 8, 2025	Multimodal ReasoningToken Reduction	CodeCode Available	1
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation	Jun 5, 2025	Decision MakingMultimodal Reasoning	—Unverified	0
MuSciClaims: Multimodal Scientific Claim Verification	Jun 5, 2025	ArticlesClaim Verification	—Unverified	0
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos	Jun 4, 2025	Multimodal Reasoning	—Unverified	0
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified	0
MiMo-VL Technical Report	Jun 4, 2025	Multimodal Reasoning	CodeCode Available	4
RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought	Jun 4, 2025	Multimodal ReasoningReasoning Segmentation	—Unverified	0
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning	Jun 2, 2025	Multimodal Reasoningreinforcement-learning	—Unverified	0
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking	Jun 1, 2025	4kMath	CodeCode Available	0
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents	May 30, 2025	BenchmarkingBlocking	CodeCode Available	2
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model	May 29, 2025	HallucinationLanguage Modeling	—Unverified	0
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified