SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 302 papers

Title	Date	Tasks	Status	Hype	Score
Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models	May 31, 2024	Multimodal ReasoningRetrieval	CodeCode Available	0	5
MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration	May 29, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0	5
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog	Dec 18, 2019	AI AgentDecoder	CodeCode Available	0	5
MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval	Jun 14, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	0	5
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning	Feb 17, 2025	In-Context LearningMultimodal Reasoning	CodeCode Available	0	5
Measuring Vision-Language STEM Skills of Neural Models	Feb 27, 2024	Multimodal Reasoning	CodeCode Available	0	5
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models	May 24, 2024	Multimodal Reasoning	CodeCode Available	0	5
KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection	May 18, 2025	Fake News DetectionMisinformation	CodeCode Available	0	5
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available	0	5
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models	May 21, 2025	Multimodal Reasoning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 14 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified