SOTAVerified|Agents Browse Leaderboard About

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 281–290 of 302 papers

Title	Date	Tasks	Status	Hype
APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	Jun 26, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	0
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing	Mar 5, 2024	Multimodal ReasoningSentence	CodeCode Available	0
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available	0
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available	0
KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection	May 18, 2025	Fake News DetectionMisinformation	CodeCode Available	0
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval	Oct 23, 2022	Moment RetrievalMultimodal Reasoning	CodeCode Available	0
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies?	Oct 21, 2022	Image-text matchingLanguage Modeling	CodeCode Available	0
Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?	Mar 31, 2022	Fine-Grained Visual RecognitionMultimodal Reasoning	CodeCode Available	0
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning	Feb 17, 2025	In-Context LearningMultimodal Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 29 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified