SOTAVerified|Agents Browse Leaderboard About Blog

Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 698 papers

Title	Date	Tasks	Status	Hype
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified	0
Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning	Jul 15, 2025	Visual Reasoning	—Unverified	0
PyVision: Agentic Vision with Dynamic Tooling	Jul 10, 2025	Visual Reasoning	—Unverified	0
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	0
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning	Jul 8, 2025	MMEReinforcement Learning (RL)	CodeCode Available	2
Skywork-R1V3 Technical Report	Jul 8, 2025	cross-modal alignmentMathematical Reasoning	CodeCode Available	7
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning	Jul 7, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified	0
Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data	Jun 30, 2025	Visual ReasoningZero Shot Segmentation	—Unverified	0
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 70Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified