Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 302 papers

Title	Date	Tasks	Status	Hype
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification	Feb 19, 2025	Multimodal Reasoning	CodeCode Available	1
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
MERLOT: Multimodal Neural Script Knowledge Models	Jun 4, 2021	Multimodal ReasoningVisual Commonsense Reasoning	CodeCode Available	1
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks	Oct 13, 2023	multimodal interactionMultimodal Reasoning	CodeCode Available	1
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination	Nov 15, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified	0
Improving Multi-Agent Debate with Sparse Communication Topology	Jun 17, 2024	Multimodal Reasoning	—Unverified	0
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base	Feb 18, 2025	AttributeHallucination	—Unverified	0
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified	0
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	Nov 27, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified	0
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified	0
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought	May 29, 2025	Multimodal Reasoning	—Unverified	0
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning	Jun 19, 2025	Multimodal Reasoningreinforcement-learning	—Unverified	0
GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning	Apr 17, 2025	Geometry Problem SolvingMultimodal Reasoning	—Unverified	0
GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View	Jun 19, 2025	Multimodal Reasoning	—Unverified	0
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence	Mar 5, 2025	Multimodal Reasoning	—Unverified	0
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified	0
Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding	Nov 1, 2021	Multimodal ReasoningPhrase Grounding	—Unverified	0
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified	0
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified	0
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified	0
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models	Jun 12, 2025	Cross-Modal RetrievalFederated Learning	—Unverified	0
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified	0
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning	Jan 10, 2024	Multimodal ReasoningSurvey	—Unverified	0
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified	0
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified	0
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified	0
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified	0
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified	0
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified	0
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified	0
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified	0
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified	0
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified	0
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified	0
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified	0
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified	0
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified