Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 302 papers

Title	Date	Tasks	Status
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models	Jun 12, 2025	Cross-Modal RetrievalFederated Learning	—Unverified
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning	Jan 10, 2024	Multimodal ReasoningSurvey	—Unverified
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 6 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified