Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 698 papers

Title	Date	Tasks	Status
Modelling Working Memory using Deep Recurrent Reinforcement Learning	Sep 11, 2019	Decision Makingreinforcement-learning	—Unverified
Modularity Matters: Learning Invariant Relational Reasoning Tasks	Jun 18, 2018	Mixture-of-ExpertsRelational Reasoning	—Unverified
Modulated Self-attention Convolutional Network for VQA	Oct 8, 2019	Question AnsweringVisual Question Answering	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Multi-Granularity Modularized Network for Abstract Visual Reasoning	Jul 9, 2020	Visual GroundingVisual Reasoning	—Unverified
Multimodal Representations for Teacher-Guided Compositional Visual Reasoning	Oct 24, 2023	Question AnsweringVisual Question Answering	—Unverified
Superpixel Semantics Representation and Pre-training for Vision-Language Task	Oct 20, 2023	Self-Supervised LearningSuperpixels	—Unverified
Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners	Apr 30, 2024	3D visual groundingVisual Grounding	—Unverified
Navigating to Objects Specified by Images	Apr 3, 2023	NavigateVisual Reasoning	—Unverified
Neural-guided, Bidirectional Program Search for Abstraction and Reasoning	Oct 22, 2021	ARCProgram Synthesis	—Unverified
Neural Structure Mapping For Learning Abstract Visual Analogies	Oct 12, 2021	Visual AnalogiesVisual Reasoning	—Unverified
Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation	Mar 21, 2025	Dataset GenerationGraph Generation	—Unverified
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"	Jun 20, 2020	Graph GenerationQuestion Answering	—Unverified
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning	Jul 11, 2024	Domain GeneralizationHuman-Object Interaction Detection	—Unverified
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks	Apr 28, 2025	Task PlanningVision-Language-Action	—Unverified
Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks	Jan 1, 2018	MemorizationQuestion Answering	—Unverified
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models	Jul 15, 2024	Common Sense ReasoningMultiple-choice	—Unverified
Attention over learned object embeddings enables complex visual reasoning	Dec 15, 2020	ObjectVideo Object Tracking	—Unverified
Object-Centric Diagnosis of Visual Reasoning	Dec 21, 2020	DiagnosticObject	—Unverified
Object Ordering with Bidirectional Matchings for Visual Reasoning	Apr 18, 2018	ObjectVisual Reasoning	—Unverified
OC-NMN: Object-centric Compositional Neural Module Network for Generative Visual Analogical Reasoning	Oct 28, 2023	Data AugmentationOut-of-Distribution Generalization	—Unverified
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified
On Data Synthesis and Post-training for Visual Abstract Reasoning	Apr 2, 2025	Visual Reasoning	—Unverified
One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning	Jul 31, 2022	AllReferring Expression	—Unverified
Question Guided Modular Routing Networks for Visual Question Answering	Apr 17, 2019	Question AnsweringVisual Question Answering	—Unverified
RAVEN: A Dataset for Relational and Analogical Visual rEasoNing	Mar 7, 2019	Object RecognitionQuestion Answering	—Unverified
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs	May 22, 2025	Image ManipulationMath	—Unverified
Reason from Context with Self-supervised Learning	Nov 23, 2022	ObjectObject Recognition	—Unverified
Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems	Nov 2, 2024	SpecificityVisual Reasoning	—Unverified
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified
Recurrent Vision Transformer for Solving Visual Reasoning Problems	Nov 29, 2021	Object DetectionVisual Reasoning	—Unverified
Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models	Nov 1, 2024	Adversarial AttackContrastive Learning	—Unverified
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models	Jan 30, 2025	Instruction FollowingVisual Reasoning	—Unverified
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified
Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities	Dec 21, 2024	AttributeClassification	—Unverified
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models	Mar 25, 2025	Image ComprehensionVisual Reasoning	—Unverified
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified
Same-different problems strain convolutional neural networks	Feb 9, 2018	MemorizationVisual Reasoning	—Unverified
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems	Mar 13, 2025	Visual Reasoning	—Unverified
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models	May 26, 2025	Uncertainty QuantificationVisual Reasoning	—Unverified
Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories	Aug 21, 2023	ClassificationClustering	—Unverified
SelfEval: Leveraging the discriminative nature of generative models for evaluation	Nov 17, 2023	AttributeVisual Reasoning	—Unverified
Self-Segregating and Coordinated-Segregating Transformer for Focused Deep Multi-Modular Network for Visual Question Answering	Jun 25, 2020	DiversityQuestion Answering	—Unverified
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
SHOP-VRB: A Visual Reasoning Benchmark for Object Perception	Apr 6, 2020	ObjectVisual Reasoning	—Unverified
Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study	Mar 9, 2025	QuantizationToken Reduction	—Unverified
Simple Token-Level Confidence Improves Caption Correctness	May 11, 2023	HallucinationImage Captioning	—Unverified
Slow Perception: Let's Perceive Geometric Figures Step-by-step	Dec 30, 2024	MathVisual Reasoning	—Unverified
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified
Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence	Jun 1, 2019	Question AnsweringVisual Reasoning	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified