Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 698 papers

Title	Date	Tasks	Status	Score
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	5
CLEVR Parser: A Graph Parser Library for Geometric Learning on Language Grounded Image Scenes	Sep 19, 2020	Graph Neural NetworkVisual Reasoning	CodeCode Available	5
CLEVRER: CoLlision Events for Video REpresentation and Reasoning	Oct 3, 2019	counterfactualDescriptive	CodeCode Available	5
Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method	Nov 14, 2023	ARCDimensionality Reduction	CodeCode Available	5
Smart Home Appliances: Chat with Your Fridge	Dec 19, 2019	Dataset GenerationVisual Reasoning	CodeCode Available	5
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	5
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs	May 21, 2025	Efficient ExplorationReinforcement Learning (RL)	CodeCode Available	5
A Distance-preserving Matrix Sketch	Sep 8, 2020	Clusteringfeature selection	CodeCode Available	5
Slot Abstractors: Toward Scalable Abstract Visual Reasoning	Mar 6, 2024	ObjectSystematic Generalization	CodeCode Available	5
FigureQA: An Annotated Figure Dataset for Visual Reasoning	Oct 19, 2017	BIG-bench Machine LearningChart Question Answering	CodeCode Available	5
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available	5
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available	5
RVTBench: A Benchmark for Visual Reasoning Tasks	May 17, 2025	Reasoning SegmentationVisual Question Answering (VQA)	CodeCode Available	5
SAViR-T: Spatially Attentive Visual Reasoning with Transformers	Jun 18, 2022	Inductive BiasVisual Reasoning	CodeCode Available	5
ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding	May 25, 2025	Chart UnderstandingLogical Reasoning	CodeCode Available	5
Explainable and Explicit Visual Reasoning over Scene Graphs	Dec 5, 2018	Inductive BiasVisual Question Answering (VQA)	CodeCode Available	5
Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning	Mar 1, 2024	DisentanglementInformativeness	CodeCode Available	5
Raven's Progressive Matrices Completion with Latent Gaussian Process Priors	Mar 22, 2021	Answer SelectionGaussian Processes	CodeCode Available	5
QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning	May 6, 2022	DiagnosticQuestion Answering	CodeCode Available	5
Predicting Complete 3D Models of Indoor Scenes	Apr 9, 2015	DiversityVisual Reasoning	CodeCode Available	5
Program synthesis performance constrained by non-linear spatial relations in Synthetic Visual Reasoning Test	Nov 18, 2019	Few-Shot LearningProgram Synthesis	CodeCode Available	5
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap	Jul 31, 2024	Human-Object Interaction DetectionImage Reconstruction	CodeCode Available	5
Enforcing Consistency in Weakly Supervised Semantic Parsing	Jul 13, 2021	Semantic ParsingVisual Reasoning	CodeCode Available	5
Physical Reasoning Using Dynamics-Aware Models	Feb 20, 2021	Visual Reasoning	CodeCode Available	5
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available	5
Cascaded Mutual Modulation for Visual Reasoning	Sep 6, 2018	Question AnsweringVisual Question Answering	CodeCode Available	5
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	5
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available	5
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems	Dec 15, 2023	Odd One OutTransfer Learning	CodeCode Available	5
On Erroneous Agreements of CLIP Image Embeddings	Nov 7, 2024	Visual Reasoning	CodeCode Available	5
Prompting Large Vision-Language Models for Compositional Reasoning	Jan 20, 2024	RetrievalVisual Reasoning	CodeCode Available	5
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation	Mar 10, 2023	Image Generationmultimodal generation	CodeCode Available	5
Object Level Visual Reasoning in Videos	Jun 16, 2018	Activity RecognitionHuman Activity Recognition	CodeCode Available	5
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning	May 22, 2025	Optical Character Recognition (OCR)Visual Reasoning	CodeCode Available	5
Bottom-Up Shift and Reasoning for Referring Image Segmentation	Jun 19, 2021	Image SegmentationSegmentation	CodeCode Available	5
Multi-Modal Dialogue State Tracking for Playing GuessWhich Game	Aug 15, 2024	Dialogue State TrackingVisual Reasoning	CodeCode Available	5
Multi-Label Contrastive Learning for Abstract Visual Reasoning	Dec 3, 2020	Contrastive LearningData Augmentation	CodeCode Available	5
Multi-Label Zero-Shot Learning with Structured Knowledge Graphs	Nov 17, 2017	General ClassificationKnowledge Graphs	CodeCode Available	5
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5
Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering	May 9, 2022	multimodal interactionQuestion Answering	CodeCode Available	5
Odd-One-Out Representation Learning	Dec 14, 2020	DisentanglementMetric Learning	CodeCode Available	5
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available	5
A Corpus for Reasoning About Natural Language Grounded in Photographs	Nov 1, 2018	DiversityVisual Reasoning	CodeCode Available	5
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?	Oct 25, 2024	Visual Reasoning	CodeCode Available	5
Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning	Sep 30, 2024	Visual Reasoning	CodeCode Available	5
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available	5
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available	5
MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning	Apr 21, 2024	Visual Reasoning	CodeCode Available	5
MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark	Oct 15, 2024	FairnessScene Text Recognition	CodeCode Available	5
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks	Mar 28, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 6 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified