Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 698 papers

Title	Date	Tasks	Status
Modelling Working Memory using Deep Recurrent Reinforcement Learning	Sep 11, 2019	Decision Makingreinforcement-learning	—Unverified
Modularity Matters: Learning Invariant Relational Reasoning Tasks	Jun 18, 2018	Mixture-of-ExpertsRelational Reasoning	—Unverified
Modulated Self-attention Convolutional Network for VQA	Oct 8, 2019	Question AnsweringVisual Question Answering	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Multi-Granularity Modularized Network for Abstract Visual Reasoning	Jul 9, 2020	Visual GroundingVisual Reasoning	—Unverified
Multimodal Representations for Teacher-Guided Compositional Visual Reasoning	Oct 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Superpixel Semantics Representation and Pre-training for Vision-Language Task	Oct 20, 2023	Self-Supervised LearningSuperpixels	—Unverified
Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners	Apr 30, 2024	3D visual groundingVisual Grounding	—Unverified
Navigating to Objects Specified by Images	Apr 3, 2023	NavigateVisual Reasoning	—Unverified
Neural-guided, Bidirectional Program Search for Abstraction and Reasoning	Oct 22, 2021	ARCProgram Synthesis	—Unverified
Neural Structure Mapping For Learning Abstract Visual Analogies	Oct 12, 2021	Visual AnalogiesVisual Reasoning	—Unverified
Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation	Mar 21, 2025	Dataset GenerationGraph Generation	—Unverified
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"	Jun 20, 2020	Graph GenerationQuestion Answering	—Unverified
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning	Jul 11, 2024	Domain GeneralizationHuman-Object Interaction Detection	—Unverified
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks	Apr 28, 2025	Task PlanningVision-Language-Action	—Unverified
Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks	Jan 1, 2018	MemorizationQuestion Answering	—Unverified
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models	Jul 15, 2024	Common Sense ReasoningMultiple-choice	—Unverified
Attention over learned object embeddings enables complex visual reasoning	Dec 15, 2020	ObjectVideo Object Tracking	—Unverified
Object-Centric Diagnosis of Visual Reasoning	Dec 21, 2020	DiagnosticObject	—Unverified
Object Ordering with Bidirectional Matchings for Visual Reasoning	Apr 18, 2018	ObjectVisual Reasoning	—Unverified
OC-NMN: Object-centric Compositional Neural Module Network for Generative Visual Analogical Reasoning	Oct 28, 2023	Data AugmentationOut-of-Distribution Generalization	—Unverified
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified
On Data Synthesis and Post-training for Visual Abstract Reasoning	Apr 2, 2025	Visual Reasoning	—Unverified
One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning	Jul 31, 2022	AllReferring Expression	—Unverified
Question Guided Modular Routing Networks for Visual Question Answering	Apr 17, 2019	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 19 of 28Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified