SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 302 papers

Title	Date	Tasks	Status	Hype	Score
Learning Compact Vision Tokens for Efficient Large Multimodal Models	Jun 8, 2025	Multimodal ReasoningToken Reduction	CodeCode Available	1	5
A Multimodal Framework for the Detection of Hateful Memes	Dec 23, 2020	Ensemble LearningMultimodal Reasoning	CodeCode Available	1	5
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification	Feb 19, 2025	Multimodal Reasoning	CodeCode Available	1	5
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization	Apr 14, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1	5
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training	Nov 23, 2023	Multimodal ReasoningScience Question Answering	CodeCode Available	1	5
Boosting MLLM Reasoning with Text-Debiased Hint-GRPO	Mar 31, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1	5
All in an Aggregated Image for In-Image Learning	Feb 28, 2024	AllHallucination	CodeCode Available	1	5
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1	5
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1	5
Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning Distilled from Large Language Models	Dec 9, 2023	Multimodal Reasoning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 8 of 31Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified