Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 302 papers

Title	Date	Tasks	Status	Hype	Score
Efficient Reasoning with Hidden Thinking	Jan 31, 2025	DecoderMultimodal Reasoning	CodeCode Available	2	5
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement	Mar 21, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents	May 30, 2025	BenchmarkingBlocking	CodeCode Available	2	5
Distill Visual Chart Reasoning Ability from LLMs to MLLMs	Oct 24, 2024	Multimodal ReasoningVisual Reasoning	CodeCode Available	2	5
DC3DO: Diffusion Classifier for 3D Objects	Aug 13, 2024	3D Object ClassificationClassification	CodeCode Available	1	5
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation	May 19, 2023	Image GenerationInstruction Following	CodeCode Available	1	5
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1	5
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1	5
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings	Nov 29, 2024	Multimodal Reasoning	CodeCode Available	1	5
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1	5
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models	Dec 17, 2024	Multimodal Reasoning	CodeCode Available	1	5
CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models	May 1, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities	Feb 17, 2025	Code GenerationHumanEval	CodeCode Available	1	5
Learning Compact Vision Tokens for Efficient Large Multimodal Models	Jun 8, 2025	Multimodal ReasoningToken Reduction	CodeCode Available	1	5
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning	Mar 22, 2024	Multimodal Reasoning	CodeCode Available	1	5
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark	Mar 26, 2025	DiagnosticMultimodal Reasoning	CodeCode Available	1	5
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks	Oct 13, 2023	multimodal interactionMultimodal Reasoning	CodeCode Available	1	5
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification	Feb 19, 2025	Multimodal Reasoning	CodeCode Available	1	5
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1	5
A Multimodal Framework for the Detection of Hateful Memes	Dec 23, 2020	Ensemble LearningMultimodal Reasoning	CodeCode Available	1	5
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1	5
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1	5
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization	Apr 14, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1	5
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training	Nov 23, 2023	Multimodal ReasoningScience Question Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified