Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 698 papers

Title	Date	Tasks	Status
QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning	May 6, 2022	DiagnosticQuestion Answering	CodeCode Available
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available
Prompting Large Vision-Language Models for Compositional Reasoning	Jan 20, 2024	RetrievalVisual Reasoning	CodeCode Available
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available
Raven's Progressive Matrices Completion with Latent Gaussian Process Priors	Mar 22, 2021	Answer SelectionGaussian Processes	CodeCode Available
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese	Oct 27, 2023	Information RetrievalNatural Language Queries	CodeCode Available
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach	Oct 3, 2022	Referring ExpressionRobot Manipulation	CodeCode Available
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling	Feb 9, 2024	HallucinationNatural Language Understanding	CodeCode Available
Untrained neural networks can demonstrate memorization-independent abstract reasoning	Jul 25, 2024	MemorizationVisual Reasoning	CodeCode Available
Program synthesis performance constrained by non-linear spatial relations in Synthetic Visual Reasoning Test	Nov 18, 2019	Few-Shot LearningProgram Synthesis	CodeCode Available
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available
Predicting Complete 3D Models of Indoor Scenes	Apr 9, 2015	DiversityVisual Reasoning	CodeCode Available
Physical Reasoning Using Dynamics-Aware Models	Feb 20, 2021	Visual Reasoning	CodeCode Available
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems	Dec 15, 2023	Odd One OutTransfer Learning	CodeCode Available
Interpretable Visual Reasoning via Induced Symbolic Space	Nov 23, 2020	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available
Inferring and Executing Programs for Visual Reasoning	May 10, 2017	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available
On Erroneous Agreements of CLIP Image Embeddings	Nov 7, 2024	Visual Reasoning	CodeCode Available
Implicit Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Sep 21, 2023	Cross-Modal RetrievalImage Captioning	CodeCode Available
Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning	Mar 1, 2024	DisentanglementInformativeness	CodeCode Available
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models	May 19, 2025	Visual Reasoning	CodeCode Available
Odd-One-Out Representation Learning	Dec 14, 2020	DisentanglementMetric Learning	CodeCode Available
Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually	Jan 19, 2024	counterfactualCounterfactual Explanation	CodeCode Available
When Causal Intervention Meets Adversarial Examples and Image Masking for Deep Neural Networks	Feb 9, 2019	Causal InferenceVisual Reasoning	CodeCode Available
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning	May 22, 2025	Optical Character Recognition (OCR)Visual Reasoning	CodeCode Available
Object Level Visual Reasoning in Videos	Jun 16, 2018	Activity RecognitionHuman Activity Recognition	CodeCode Available
RVTBench: A Benchmark for Visual Reasoning Tasks	May 17, 2025	Reasoning SegmentationVisual Question Answering (VQA)	CodeCode Available
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available
SAViR-T: Spatially Attentive Visual Reasoning with Transformers	Jun 18, 2022	Inductive BiasVisual Reasoning	CodeCode Available
CLEVR Parser: A Graph Parser Library for Geometric Learning on Language Grounded Image Scenes	Sep 19, 2020	Graph Neural NetworkVisual Reasoning	CodeCode Available
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models	Feb 23, 2025	BenchmarkingSpatial Reasoning	CodeCode Available
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation	Mar 10, 2023	Image Generationmultimodal generation	CodeCode Available
Multi-Modal Dialogue State Tracking for Playing GuessWhich Game	Aug 15, 2024	Dialogue State TrackingVisual Reasoning	CodeCode Available
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives	Jun 22, 2022	Feature ImportanceQuestion Answering	CodeCode Available
Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering	May 9, 2022	multimodal interactionQuestion Answering	CodeCode Available
Multi-Label Zero-Shot Learning with Structured Knowledge Graphs	Nov 17, 2017	General ClassificationKnowledge Graphs	CodeCode Available
Multi-Label Contrastive Learning for Abstract Visual Reasoning	Dec 3, 2020	Contrastive LearningData Augmentation	CodeCode Available
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning	Sep 30, 2024	Visual Reasoning	CodeCode Available
CLEVRER: CoLlision Events for Video REpresentation and Reasoning	Oct 3, 2019	counterfactualDescriptive	CodeCode Available
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks	Aug 22, 2022	AllCross-Modal Retrieval	CodeCode Available
Meta Module Network for Compositional Visual Reasoning	Oct 8, 2019	MORPHVisual Reasoning	CodeCode Available
A Distance-preserving Matrix Sketch	Sep 8, 2020	Clusteringfeature selection	CodeCode Available
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	Sep 3, 2024	In-Context LearningLanguage Modeling	CodeCode Available
WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models	Jul 25, 2022	Common Sense ReasoningGeneral Knowledge	CodeCode Available
How a General-Purpose Commonsense Ontology can Improve Performance of Learning-Based Image Retrieval	May 24, 2017	Image RetrievalRetrieval	CodeCode Available
MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark	Oct 15, 2024	FairnessScene Text Recognition	CodeCode Available
Slot Abstractors: Toward Scalable Abstract Visual Reasoning	Mar 6, 2024	ObjectSystematic Generalization	CodeCode Available
MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning	Apr 21, 2024	Visual Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 13 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified