Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 698 papers

Title	Date	Tasks	Status
Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT	Feb 23, 2025	Bias DetectionVisual Reasoning	—Unverified
Visual Reasoning of Feature Attribution with Deep Recurrent Neural Networks	Jan 17, 2019	ClassificationGeneral Classification	—Unverified
Visual Reasoning with Natural Language	Oct 2, 2017	DescriptiveDiversity	—Unverified
Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs	Jun 27, 2025	Visual Reasoning	—Unverified
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection	May 26, 2025	Diversityreinforcement-learning	—Unverified
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models	Apr 21, 2025	AttributeVisual Reasoning	—Unverified
ViUniT: Visual Unit Tests for More Robust Visual Programming	Dec 12, 2024	Image GenerationImage-text matching	—Unverified
VL-BEiT: Generative Vision-Language Pretraining	Jun 2, 2022	image-classificationImage Classification	—Unverified
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making	May 6, 2025	Decision MakingGeneral Knowledge	—Unverified
VLM@school -- Evaluation of AI image understanding on German middle school knowledge	Jun 13, 2025	Visual Reasoning	—Unverified
V-PROM: A Benchmark for Visual Reasoning Using Visual Progressive Matrices	Jul 29, 2019	Visual Reasoning	—Unverified
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges	Dec 26, 2022	Representation LearningVisual Question Answering (VQA)	—Unverified
Weakly Supervised Semantic Parsing with Abstract Examples	Jul 1, 2018	Semantic ParsingVisual Reasoning	—Unverified
Webly Supervised Knowledge Embedding Model for Visual Reasoning	Jun 1, 2020	modelRepresentation Learning	—Unverified
What Makes a Maze Look Like a Maze?	Sep 12, 2024	Visual Reasoning	—Unverified
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities	Jun 20, 2024	Spatial ReasoningVisual Reasoning	—Unverified
World-aware Planning Narratives Enhance Large Vision-Language Model Planner	Jun 26, 2025	Imitation LearningLanguage Modeling	—Unverified
Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry	Apr 9, 2024	Automated Theorem ProvingCPU	—Unverified
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs	Jul 18, 2024	Contrastive LearningRepresentation Learning	—Unverified
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models	Feb 13, 2025	Visual Reasoning	—Unverified
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning	Aug 5, 2024	Visual Reasoning	—Unverified
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available
Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach	Feb 20, 2024	ObjectRelational Reasoning	CodeCode Available
Learning from Lexical Perturbations for Consistent Visual Question Answering	Nov 26, 2020	Question AnsweringVisual Question Answering	CodeCode Available
UniT: Multimodal Multitask Learning with a Unified Transformer	Feb 22, 2021	DecoderMultimodal Reasoning	CodeCode Available
Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects	Jun 22, 2024	Relational ReasoningVisual Reasoning	CodeCode Available
Visual Reasoning with Multi-hop Feature Modulation	Aug 3, 2018	Question AnsweringVisual Dialog	CodeCode Available
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning	Mar 14, 2018	Question AnsweringVisual Question Answering	CodeCode Available
What Is Missing in Multilingual Visual Reasoning and How to Fix It	Mar 3, 2024	Image CaptioningVisual Reasoning	CodeCode Available
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning	Jun 4, 2025	Image GenerationVisual Reasoning	CodeCode Available
Contextual Modulation for Relation-Level Metaphor Identification	Oct 12, 2020	RelationVisual Reasoning	CodeCode Available
Complete 3D Scene Parsing from an RGBD Image	Oct 25, 2017	DiversityRetrieval	CodeCode Available
Learning Dynamics of Attention: Human Prior for Interpretable Machine Reasoning	May 28, 2019	Visual Reasoning	CodeCode Available
What is the Visual Cognition Gap between Humans and Multimodal LLMs?	Jun 14, 2024	object-detectionObject Detection	CodeCode Available
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available
Learning by Abstraction: The Neural State Machine	Jul 9, 2019	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available
Unicode Analogies: An Anti-Objectivist Visual Reasoning Challenge	Jan 1, 2023	NavigateVisual Reasoning	CodeCode Available
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available
Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices	Aug 12, 2023	Visual Reasoning	CodeCode Available
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available
Unraveling the geometry of visual relational reasoning	Feb 24, 2025	Relational ReasoningRelation Network	CodeCode Available
Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task	May 28, 2025	Visual Reasoning	CodeCode Available
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks	Mar 28, 2021	Question AnsweringVisual Question Answering	CodeCode Available
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap	Jul 31, 2024	Human-Object Interaction DetectionImage Reconstruction	CodeCode Available
VASR: Visual Analogies of Situation Recognition	Dec 8, 2022	Common Sense ReasoningTriplet	CodeCode Available
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs	Jun 19, 2024	Visual Reasoning	CodeCode Available
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 12 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified