Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 302 papers

Title	Date	Tasks	Status	Hype	Score
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation	May 19, 2023	Image GenerationInstruction Following	CodeCode Available	1	5
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition	Mar 16, 2025	Caption GenerationImage Captioning	CodeCode Available	1	5
Towers of Babel: Combining Images, Language, and 3D Geometry for Learning Multimodal Vision	Aug 12, 2021	3D geometryDescriptive	CodeCode Available	1	5
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
Learning Compact Vision Tokens for Efficient Large Multimodal Models	Jun 8, 2025	Multimodal ReasoningToken Reduction	CodeCode Available	1	5
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1	5
Variational Causal Inference Network for Explanatory Visual Question Answering	Jan 1, 2023	Explanation GenerationExplanatory Visual Question Answering	CodeCode Available	1	5
Visual Abstract Thinking Empowers Multimodal Reasoning	May 26, 2025	Multimodal ReasoningRelational Reasoning	CodeCode Available	1	5
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available	0	5
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0	5
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0	5
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking	Jun 1, 2025	4kMath	CodeCode Available	0	5
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models	Feb 19, 2025	counterfactualHallucination	CodeCode Available	0	5
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0	5
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available	0	5
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	0	5
Apollo: Zero-shot MultiModal Reasoning with Multiple Experts	Oct 25, 2023	Image CaptioningMultimodal Reasoning	CodeCode Available	0	5
APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	Jun 26, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	0	5
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available	0	5
On the generalization capacity of neural networks during generic multimodal reasoning	Jan 26, 2024	Multimodal ReasoningSystematic Generalization	CodeCode Available	0	5
Towards Low-Resource Harmful Meme Detection with LMM Agents	Nov 8, 2024	Multimodal Reasoning	CodeCode Available	0	5
MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval	Jun 14, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	0	5
MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration	May 29, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0	5
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval	Oct 23, 2022	Moment RetrievalMultimodal Reasoning	CodeCode Available	0	5
Dual Attention Networks for Multimodal Reasoning and Matching	Nov 2, 2016	Collaborative InferenceImage-text matching	CodeCode Available	0	5

Show:10 25 50

← PrevPage 5 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified