Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 302 papers

Title	Date	Tasks	Status
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	Nov 27, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Training-Free Personalization via Retrieval and Reasoning on Fingerprints	Mar 24, 2025	AttributeMultimodal Reasoning	—Unverified
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Improving Multi-Agent Debate with Sparse Communication Topology	Jun 17, 2024	Multimodal Reasoning	—Unverified
Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding	Nov 1, 2021	Multimodal ReasoningPhrase Grounding	—Unverified
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning	Mar 8, 2025	Multimodal Reasoning	—Unverified
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence	Mar 5, 2025	Multimodal Reasoning	—Unverified
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables	Aug 25, 2024	Multimodal ReasoningQuestion Answering	—Unverified
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified
Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering	Dec 1, 2021	Multimodal ReasoningQuestion Answering	—Unverified
Learning to Ground VLMs without Forgetting	Oct 14, 2024	DecoderLanguage Modelling	—Unverified
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes	Dec 16, 2024	Contrastive LearningMultimodal Reasoning	—Unverified
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation	Jun 5, 2025	Decision MakingMultimodal Reasoning	—Unverified
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering	Jun 18, 2025	Multimodal ReasoningQuestion Answering	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
AccidentBlip: Agent of Accident Warning based on MA-former	Apr 18, 2024	Language ModellingLarge Language Model	—Unverified
C^3: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues	Jun 16, 2021	Contrastive Learningcounterfactual	—Unverified
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency	Jun 10, 2025	Multimodal Reasoning	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning	Jun 12, 2025	Image GenerationMultimodal Reasoning	—Unverified
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models	Feb 21, 2024	Geometry Problem SolvingMolecular Property Prediction	—Unverified
AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry	Jan 15, 2023	Fraud DetectionMultimodal Reasoning	—Unverified
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos	Jun 4, 2025	Multimodal Reasoning	—Unverified
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)	Apr 4, 2025	Multimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified