Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 302 papers

Title	Date	Tasks	Status
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency	Jun 10, 2025	Multimodal Reasoning	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning	Jun 12, 2025	Image GenerationMultimodal Reasoning	—Unverified
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models	Feb 21, 2024	Geometry Problem SolvingMolecular Property Prediction	—Unverified
AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry	Jan 15, 2023	Fraud DetectionMultimodal Reasoning	—Unverified
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos	Jun 4, 2025	Multimodal Reasoning	—Unverified
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)	Apr 4, 2025	Multimodal Reasoning	—Unverified
MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models	May 20, 2025	Autonomous DrivingMultimodal Reasoning	—Unverified
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models	May 23, 2025	DiagnosticHallucination	—Unverified
Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics	Apr 14, 2025	Knowledge GraphsMultimodal Reasoning	—Unverified
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level	Nov 15, 2024	Benchmarkingcounterfactual	—Unverified
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification	Mar 16, 2025	Multimodal Reasoning	—Unverified
MultiFinRAG: An Optimized Multimodal Retrieval-Augmented Generation (RAG) Framework for Financial Question Answering	Jun 25, 2025	Multimodal ReasoningQuestion Answering	—Unverified
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind	Apr 25, 2025	Large Language ModelMultimodal Reasoning	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models	Feb 22, 2025	Multimodal Reasoning	—Unverified
Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval	May 26, 2025	Contrastive LearningImage Retrieval	—Unverified
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified
Multimodal Transformer with Multi-View Visual Representation for Image Captioning	May 20, 2019	DecoderImage Captioning	—Unverified
MuSciClaims: Multimodal Scientific Claim Verification	Jun 5, 2025	ArticlesClaim Verification	—Unverified
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified
NL-Eye: Abductive NLI for Images	Oct 3, 2024	Language ModelingLanguage Modelling	—Unverified
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains	May 6, 2025	Multimodal Reasoning	—Unverified
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified
On scalable oversight with weak LLMs judging strong LLMs	Jul 5, 2024	Multimodal ReasoningQuestion Answering	—Unverified
ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning	May 25, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought	May 29, 2025	Multimodal Reasoning	—Unverified
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts	Jun 12, 2025	DiversityMinecraft	—Unverified
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified
Perception-Aware Policy Optimization for Multimodal Reasoning	Jul 8, 2025	Multimodal Reasoning	—Unverified
PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning	Jun 17, 2025	General Reinforcement LearningMultimodal Reasoning	—Unverified
Personality-aware Human-centric Multimodal Reasoning: A New Task, Dataset and Baselines	Apr 5, 2023	Decision MakingMultimodal Reasoning	—Unverified
POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models	Jun 6, 2024	Multimodal ReasoningPrompt Engineering	—Unverified
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified
Position: Empowering Time Series Reasoning with Multimodal LLMs	Feb 3, 2025	Decision MakingMultimodal Reasoning	—Unverified
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model	May 29, 2025	HallucinationLanguage Modeling	—Unverified
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues	May 15, 2021	Multimodal ReasoningNatural Language Inference	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified