Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–698 of 698 papers

Title	Date	Tasks	Status
Language-Vision Planner and Executor for Text-to-Visual Reasoning	Jun 9, 2025	In-Context LearningMME	—Unverified
FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving	May 23, 2025	Autonomous DrivingImage Generation	—Unverified
From Wrong To Right: A Recursive Approach Towards Vision-Language Explanation	Nov 21, 2023	Explanation GenerationVisual Question Answering (VQA)	—Unverified
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning	Oct 30, 2024	BenchmarkingHallucination	—Unverified
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning	Dec 3, 2024	BenchmarkingVisual Reasoning	—Unverified
From Visual to Acoustic Question Answering	Feb 28, 2019	Acoustic Question AnsweringPosition	—Unverified
VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models	May 26, 2025	Visual Reasoning	—Unverified
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models	Feb 13, 2025	Visual Reasoning	—Unverified
What Makes a Maze Look Like a Maze?	Sep 12, 2024	Visual Reasoning	—Unverified
Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning	May 20, 2025	reinforcement-learningReinforcement Learning	—Unverified
From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering	Jun 25, 2022	Question AnsweringVisual Question Answering	—Unverified
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration	Mar 17, 2025	DenoisingQuestion Answering	—Unverified
Learning Rope Manipulation Policies Using Dense Object Descriptors Trained on Synthetic Depth Data	Mar 3, 2020	Robot ManipulationVisual Reasoning	—Unverified
Learning to Act Properly: Predicting and Explaining Affordances from Images	Dec 20, 2017	Visual Reasoning	—Unverified
Learning to Agree on Vision Attention for Visual Commonsense Reasoning	Feb 4, 2023	Visual Commonsense ReasoningVisual Reasoning	—Unverified
Learning to Collocate Neural Modules for Image Captioning	Apr 18, 2019	DecoderImage Captioning	—Unverified
Are Elephants Bigger than Butterflies? Reasoning about Sizes of Objects	Feb 2, 2016	Visual Reasoning	—Unverified
Learning to Compose and Reason with Language Tree Structures for Visual Grounding	Jun 5, 2019	Visual GroundingVisual Reasoning	—Unverified
From Code to Compliance: Assessing ChatGPT's Utility in Designing an Accessible Webpage -- A Case Study	Jan 7, 2025	Prompt EngineeringVisual Reasoning	—Unverified
VISREAS: Complex Visual Reasoning with Unanswerable Questions	Feb 23, 2024	Question AnsweringVisual Question Answering	—Unverified
Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data	Jun 30, 2025	Visual ReasoningZero Shot Segmentation	—Unverified
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios	Nov 20, 2024	Question AnsweringVisual Question Answering (VQA)	—Unverified
Are Disentangled Representations Helpful for Abstract Visual Reasoning?	May 29, 2019	DisentanglementVisual Reasoning	—Unverified
Learning to Stop Overthinking at Test Time	Feb 16, 2025	Visual Reasoning	—Unverified
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization	Oct 14, 2024	Explanation GenerationImage Forgery Detection	—Unverified
Abstract Visual Reasoning Enabled by Language	Mar 7, 2023	ARCVisual Reasoning	—Unverified
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
Visual Agentic AI for Spatial Reasoning with a Dynamic API	Feb 10, 2025	Program SynthesisSpatial Reasoning	—Unverified
Visual Analytics of Neuron Vulnerability to Adversarial Attacks on Convolutional Neural Networks	Mar 6, 2023	Autonomous DrivingMedical Diagnosis	—Unverified
Lexical Conceptual Structure of Literal and Metaphorical Spatial Language: A Case Study of ``Push''	Jun 1, 2018	Machine TranslationTranslation	—Unverified
lilGym: Natural Language Visual Reasoning with Reinforcement Learning	Nov 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
Filling in the details: Perceiving from low fidelity images	Apr 14, 2016	FoveationVisual Reasoning	—Unverified
Few-shot Visual Reasoning with Meta-analogical Contrastive Learning	Jul 23, 2020	Contrastive LearningLogical Reasoning	—Unverified
Few-shot Subgoal Planning with Language Models	May 28, 2022	Language ModelingLanguage Modelling	—Unverified
LLMs Are Not Yet Ready for Deepfake Image Detection	Jun 12, 2025	DeepFake DetectionFace Swapping	—Unverified
Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs	Apr 30, 2025	HallucinationHallucination Evaluation	—Unverified
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction	Jan 3, 2025	Anomaly DetectionVisual Reasoning	—Unverified
Few-Shot Abstract Visual Reasoning With Spectral Features	Oct 4, 2019	Few-Shot LearningVisual Reasoning	—Unverified
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
Look, Remember and Reason: Grounded reasoning in videos with language models	Jun 30, 2023	Objectobject-detection	—Unverified
An in-depth experimental study of sensor usage and visual reasoning of robots navigating in real environments	Nov 29, 2021	BenchmarkingVisual Navigation	—Unverified
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation	Apr 15, 2025	Image CaptioningQuestion Answering	—Unverified
Factorization of View-Object Manifolds for Joint Object Recognition and Pose Estimation	Mar 23, 2015	ObjectObject Recognition	—Unverified
Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems	Jun 11, 2024	In-Context LearningTraveling Salesman Problem	—Unverified
Explicit Knowledge Incorporation for Visual Reasoning	Jun 19, 2021	Visual Reasoning	—Unverified
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 14 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified