Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 698 papers

Title	Date	Tasks	Status	Hype
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified	0
Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning	Jul 15, 2025	Visual Reasoning	—Unverified	0
PyVision: Agentic Vision with Dynamic Tooling	Jul 10, 2025	Visual Reasoning	—Unverified	0
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	0
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning	Jul 8, 2025	MMEReinforcement Learning (RL)	CodeCode Available	2
Skywork-R1V3 Technical Report	Jul 8, 2025	cross-modal alignmentMathematical Reasoning	CodeCode Available	7
Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning	Jul 7, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified	0
Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data	Jun 30, 2025	Visual ReasoningZero Shot Segmentation	—Unverified	0
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified	0
Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs	Jun 27, 2025	Visual Reasoning	—Unverified	0
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation	Jun 26, 2025	counterfactualCounterfactual Reasoning	—Unverified	0
World-aware Planning Narratives Enhance Large Vision-Language Model Planner	Jun 26, 2025	Imitation LearningLanguage Modeling	—Unverified	0
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens	Jun 20, 2025	Image GenerationMultimodal Reasoning	CodeCode Available	3
VLM@school -- Evaluation of AI image understanding on German middle school knowledge	Jun 13, 2025	Visual Reasoning	—Unverified	0
VGR: Visual Grounded Reasoning	Jun 13, 2025	Large Language ModelMath	—Unverified	0
LLMs Are Not Yet Ready for Deepfake Image Detection	Jun 12, 2025	DeepFake DetectionFace Swapping	—Unverified	0
Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning	Jun 11, 2025	Image CaptioningMath	CodeCode Available	2
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified	0
Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions	Jun 10, 2025	Visual Reasoning	—Unverified	0
VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism	Jun 10, 2025	Mathematical ReasoningVisual Reasoning	CodeCode Available	0
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning	Jun 10, 2025	Task PlanningVisual Reasoning	—Unverified	0
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified	0
Language-Vision Planner and Executor for Text-to-Visual Reasoning	Jun 9, 2025	In-Context LearningMME	—Unverified	0
Synthetic Visual Genome	Jun 9, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified	0
Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning	Jun 8, 2025	AttributeHallucination	—Unverified	0
Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification	Jun 8, 2025	Question AnsweringVisual Question Answering	CodeCode Available	1
MATP-BENCH: Can MLLM Be a Good Automated Theorem Prover for Multimodal Problems?	Jun 6, 2025	Automated Theorem ProvingVisual Reasoning	—Unverified	0
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning	Jun 5, 2025	MathMathematical Reasoning	CodeCode Available	2
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning	Jun 4, 2025	Image GenerationVisual Reasoning	CodeCode Available	0
Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark	Jun 4, 2025	SentenceVisual Reasoning	—Unverified	0
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis	Jun 2, 2025	8kMath	—Unverified	0
DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?	May 30, 2025	DiagnosticMedical Image Analysis	CodeCode Available	1
Reinforcing Video Reasoning with Focused Thinking	May 30, 2025	Data AugmentationVisual Reasoning	CodeCode Available	1
ProxyThinker: Test-Time Guidance through Small Visual Reasoners	May 30, 2025	Visual Reasoning	CodeCode Available	1
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents	May 30, 2025	BenchmarkingBlocking	CodeCode Available	2
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified	0
Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT	May 30, 2025	Spatial ReasoningVisual Reasoning	CodeCode Available	1
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified	0
Grounded Reinforcement Learning for Visual Reasoning	May 29, 2025	reinforcement-learningReinforcement Learning	—Unverified	0
Thinking with Generated Images	May 28, 2025	Visual Reasoning	CodeCode Available	0
Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task	May 28, 2025	Visual Reasoning	CodeCode Available	0
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified	0
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models	May 27, 2025	Question AnsweringVisual Reasoning	—Unverified	0
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified	0
VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models	May 26, 2025	Visual Reasoning	—Unverified	0
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection	May 26, 2025	Diversityreinforcement-learning	—Unverified	0
Visual Abstract Thinking Empowers Multimodal Reasoning	May 26, 2025	Multimodal ReasoningRelational Reasoning	CodeCode Available	1
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning	May 26, 2025	reinforcement-learningReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified