Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 698 papers

Title	Date	Tasks	Status	Score
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available	5
Prompting Large Vision-Language Models for Compositional Reasoning	Jan 20, 2024	RetrievalVisual Reasoning	CodeCode Available	5
QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning	May 6, 2022	DiagnosticQuestion Answering	CodeCode Available	5
Raven's Progressive Matrices Completion with Latent Gaussian Process Priors	Mar 22, 2021	Answer SelectionGaussian Processes	CodeCode Available	5
Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning	Mar 1, 2024	DisentanglementInformativeness	CodeCode Available	5
RVTBench: A Benchmark for Visual Reasoning Tasks	May 17, 2025	Reasoning SegmentationVisual Question Answering (VQA)	CodeCode Available	5
SAViR-T: Spatially Attentive Visual Reasoning with Transformers	Jun 18, 2022	Inductive BiasVisual Reasoning	CodeCode Available	5
Slot Abstractors: Toward Scalable Abstract Visual Reasoning	Mar 6, 2024	ObjectSystematic Generalization	CodeCode Available	5
Smart Home Appliances: Chat with Your Fridge	Dec 19, 2019	Dataset GenerationVisual Reasoning	CodeCode Available	5
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	5
Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method	Nov 14, 2023	ARCDimensionality Reduction	CodeCode Available	5
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs	May 21, 2025	Efficient ExplorationReinforcement Learning (RL)	CodeCode Available	5
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available	5
Systematic Visual Reasoning through Object-Centric Relational Abstraction	Jun 4, 2023	ObjectSystematic Generalization	CodeCode Available	5
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images	Apr 1, 2025	Autonomous NavigationBenchmarking	CodeCode Available	5
Techniques for Symbol Grounding with SATNet	Jun 16, 2021	Logical ReasoningVisual Reasoning	CodeCode Available	5
Temporal Reasoning via Audio Question Answering	Nov 21, 2019	Audio Question AnsweringDiagnostic	CodeCode Available	5
TGraphX: Tensor-Aware Graph Neural Network for Multi-Dimensional Feature Learning	Apr 4, 2025	Graph Neural Networkobject-detection	CodeCode Available	5
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning	Feb 10, 2022	DiagnosticVisual Abductive Reasoning	CodeCode Available	5
Five Points to Check when Comparing Visual Perception in Humans and Machines	Apr 20, 2020	Decision MakingObject Recognition	CodeCode Available	5
Thinking with Generated Images	May 28, 2025	Visual Reasoning	CodeCode Available	5
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks	Jan 12, 2023	Cross-Modal RetrievalOpen-Ended Question Answering	CodeCode Available	5
Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge	Jan 1, 2023	Decision MakingQuestion Answering	CodeCode Available	5
UniT: Multimodal Multitask Learning with a Unified Transformer	Feb 22, 2021	DecoderMultimodal Reasoning	CodeCode Available	5
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning	Mar 14, 2018	Question AnsweringVisual Question Answering	CodeCode Available	5
Unicode Analogies: An Anti-Objectivist Visual Reasoning Challenge	Jan 1, 2023	NavigateVisual Reasoning	CodeCode Available	5
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available	5
Unraveling the geometry of visual relational reasoning	Feb 24, 2025	Relational ReasoningRelation Network	CodeCode Available	5
VASR: Visual Analogies of Situation Recognition	Dec 8, 2022	Common Sense ReasoningTriplet	CodeCode Available	5
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs	Jun 19, 2024	Visual Reasoning	CodeCode Available	5
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese	Oct 27, 2023	Information RetrievalNatural Language Queries	CodeCode Available	5
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling	Feb 9, 2024	HallucinationNatural Language Understanding	CodeCode Available	5
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models	Feb 23, 2025	BenchmarkingSpatial Reasoning	CodeCode Available	5
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives	Jun 22, 2022	Feature ImportanceQuestion Answering	CodeCode Available	5
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available	5
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available	5
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests	Dec 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges	Jun 26, 2024	In-Context LearningTraveling Salesman Problem	CodeCode Available	5
Visual Reasoning by Progressive Module Networks	Jun 6, 2018	Visual Reasoning	CodeCode Available	5
Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach	Feb 20, 2024	ObjectRelational Reasoning	CodeCode Available	5
Visual Reasoning with Multi-hop Feature Modulation	Aug 3, 2018	Question AnsweringVisual Dialog	CodeCode Available	5
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	5
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available	5
VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism	Jun 10, 2025	Mathematical ReasoningVisual Reasoning	CodeCode Available	5
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding	Mar 21, 2024	Pose EstimationVideo Understanding	CodeCode Available	5
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available	5
Weakly-supervised Semantic Parsing with Abstract Examples	Nov 14, 2017	Semantic ParsingVisual Reasoning	CodeCode Available	5
What Is Missing in Multilingual Visual Reasoning and How to Fix It	Mar 3, 2024	Image CaptioningVisual Reasoning	CodeCode Available	5
What is the Visual Cognition Gap between Humans and Multimodal LLMs?	Jun 14, 2024	object-detectionObject Detection	CodeCode Available	5
When Causal Intervention Meets Adversarial Examples and Image Masking for Deep Neural Networks	Feb 9, 2019	Causal InferenceVisual Reasoning	CodeCode Available	5

Show:10 25 50

← PrevPage 7 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified