Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 302 papers

Title	Date	Tasks	Status
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation	Jun 5, 2025	Decision MakingMultimodal Reasoning	—Unverified
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering	Jun 18, 2025	Multimodal ReasoningQuestion Answering	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
AccidentBlip: Agent of Accident Warning based on MA-former	Apr 18, 2024	Language ModellingLarge Language Model	—Unverified
C^3: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues	Jun 16, 2021	Contrastive Learningcounterfactual	—Unverified
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency	Jun 10, 2025	Multimodal Reasoning	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning	Jun 12, 2025	Image GenerationMultimodal Reasoning	—Unverified
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models	Feb 21, 2024	Geometry Problem SolvingMolecular Property Prediction	—Unverified
AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry	Jan 15, 2023	Fraud DetectionMultimodal Reasoning	—Unverified
MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos	Jun 4, 2025	Multimodal Reasoning	—Unverified
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark	May 18, 2025	Multimodal ReasoningVisual Place Recognition	—Unverified

Show:10 25 50

← PrevPage 8 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified