Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 302 papers

Title	Date	Tasks	Status
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified
Agentic 3D Scene Generation with Spatially Contextualized VLMs	May 26, 2025	Multimodal ReasoningScene Generation	—Unverified
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning	May 26, 2025	Meta-LearningMultimodal Reasoning	—Unverified
Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval	May 26, 2025	Contrastive LearningImage Retrieval	—Unverified
ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning	May 25, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models	May 23, 2025	DiagnosticHallucination	—Unverified
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models	May 21, 2025	Multimodal Reasoning	CodeCode Available
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models	May 20, 2025	Autonomous DrivingMultimodal Reasoning	—Unverified
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning	May 19, 2025	Multimodal ReasoningScene Understanding	—Unverified
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified
KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection	May 18, 2025	Fake News DetectionMisinformation	CodeCode Available
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging	May 17, 2025	Image SegmentationLanguage Modeling	—Unverified
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning	May 12, 2025	Multimodal Reasoning	—Unverified
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified
Q-Heart: ECG Question Answering via Knowledge-Informed Multimodal LLMs	May 7, 2025	Electrocardiography (ECG)Language Modeling	—Unverified
SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios	May 7, 2025	DiversityMixture-of-Experts	—Unverified
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains	May 6, 2025	Multimodal Reasoning	—Unverified
Advancing Conversational Diagnostic AI with Multimodal Reasoning	May 6, 2025	DiagnosticManagement	—Unverified
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models	Apr 30, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind	Apr 25, 2025	Large Language ModelMultimodal Reasoning	—Unverified
VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization	Apr 17, 2025	Multimodal ReasoningSafety Alignment	—Unverified
GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning	Apr 17, 2025	Geometry Problem SolvingMultimodal Reasoning	—Unverified
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model	Apr 14, 2025	Anomaly DetectionDomain Adaptation	—Unverified
Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics	Apr 14, 2025	Knowledge GraphsMultimodal Reasoning	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation	Apr 13, 2025	Code GenerationMultimodal Reasoning	—Unverified
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)	Apr 4, 2025	Multimodal Reasoning	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Agentic Multimodal AI for Hyperpersonalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework	Apr 1, 2025	Decision MakingIn-Context Learning	—Unverified
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified
VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs	Mar 25, 2025	DiversityMultimodal Reasoning	—Unverified
Training-Free Personalization via Retrieval and Reasoning on Fingerprints	Mar 24, 2025	AttributeMultimodal Reasoning	—Unverified
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models	Mar 20, 2025	Multimodal ReasoningRecommendation Systems	—Unverified
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models	Mar 19, 2025	MM-VetMultimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified