SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–110 of 302 papers

Title	Date	Tasks	Status	Hype	Score
SATORI-R1: Incentivizing Multimodal Reasoning with Spatial Grounding and Verifiable Rewards	May 25, 2025	Image CaptioningMultimodal Reasoning	CodeCode Available	1	5
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1	5
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1	5
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding	Mar 29, 2022	Multimodal ReasoningVisual Grounding	CodeCode Available	1	5
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination	Nov 15, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1	5
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1	5
VideoMultiAgents: A Multi-Agent Framework for Video Question Answering	Apr 25, 2025	Caption GenerationEgoSchema	CodeCode Available	1	5
PACS: A Dataset for Physical Audiovisual CommonSense Reasoning	Mar 21, 2022	Common Sense ReasoningMultimodal Reasoning	CodeCode Available	1	5
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0	5
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 11 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified