Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–698 of 698 papers

Title	Date	Tasks	Status
VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism	Jun 10, 2025	Mathematical ReasoningVisual Reasoning	CodeCode Available
Smart Home Appliances: Chat with Your Fridge	Dec 19, 2019	Dataset GenerationVisual Reasoning	CodeCode Available
ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding	May 25, 2025	Chart UnderstandingLogical Reasoning	CodeCode Available
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available
Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method	Nov 14, 2023	ARCDimensionality Reduction	CodeCode Available
GAMR: A Guided Attention Model for (visual) Reasoning	Jun 10, 2022	modelVisual Reasoning	CodeCode Available
Mapping Natural Language Commands to Web Elements	Aug 28, 2018	Relational ReasoningVisual Reasoning	CodeCode Available
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
Cascaded Mutual Modulation for Visual Reasoning	Sep 6, 2018	Question AnsweringVisual Question Answering	CodeCode Available
STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs	May 21, 2025	Efficient ExplorationReinforcement Learning (RL)	CodeCode Available
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI	May 9, 2025	4kDomain Generalization	CodeCode Available
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding	Jun 9, 2023	Few-Shot Learningimage-classification	CodeCode Available
Learning Visual Reasoning Without Strong Priors	Jul 10, 2017	Visual Reasoning	CodeCode Available
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding	Mar 21, 2024	Pose EstimationVideo Understanding	CodeCode Available
GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives	Dec 7, 2023	Graph GenerationLanguage Modelling	CodeCode Available
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available
Systematic Visual Reasoning through Object-Centric Relational Abstraction	Jun 4, 2023	ObjectSystematic Generalization	CodeCode Available
Learning Visual Abstract Reasoning through Dual-Stream Networks	Nov 29, 2024	Visual Reasoning	CodeCode Available
FigureQA: An Annotated Figure Dataset for Visual Reasoning	Oct 19, 2017	BIG-bench Machine LearningChart Question Answering	CodeCode Available
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images	Apr 1, 2025	Autonomous NavigationBenchmarking	CodeCode Available
Techniques for Symbol Grounding with SATNet	Jun 16, 2021	Logical ReasoningVisual Reasoning	CodeCode Available
Temporal Reasoning via Audio Question Answering	Nov 21, 2019	Audio Question AnsweringDiagnostic	CodeCode Available
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available
Learning to reason over visual objects	Mar 3, 2023	Inductive BiasVisual Reasoning	CodeCode Available
Explainable and Explicit Visual Reasoning over Scene Graphs	Dec 5, 2018	Inductive BiasVisual Question Answering (VQA)	CodeCode Available
TGraphX: Tensor-Aware Graph Neural Network for Multi-Dimensional Feature Learning	Apr 4, 2025	Graph Neural Networkobject-detection	CodeCode Available
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning	Feb 10, 2022	DiagnosticVisual Abductive Reasoning	CodeCode Available
Weakly-supervised Semantic Parsing with Abstract Examples	Nov 14, 2017	Semantic ParsingVisual Reasoning	CodeCode Available
Five Points to Check when Comparing Visual Perception in Humans and Machines	Apr 20, 2020	Decision MakingObject Recognition	CodeCode Available
Enforcing Consistency in Weakly Supervised Semantic Parsing	Jul 13, 2021	Semantic ParsingVisual Reasoning	CodeCode Available
Bottom-Up Shift and Reasoning for Referring Image Segmentation	Jun 19, 2021	Image SegmentationSegmentation	CodeCode Available
Thinking with Generated Images	May 28, 2025	Visual Reasoning	CodeCode Available
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available
Learning to Compose: Improving Object Centric Learning by Injecting Compositionality	May 1, 2024	ObjectSystematic Generalization	CodeCode Available
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning	Oct 4, 2022	Image CaptioningSentence	CodeCode Available
Learning logic programs by discovering higher-order abstractions	Aug 16, 2023	Inductive logic programmingProgram Synthesis	CodeCode Available
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks	Jan 12, 2023	Cross-Modal RetrievalOpen-Ended Question Answering	CodeCode Available
Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge	Jan 1, 2023	Decision MakingQuestion Answering	CodeCode Available
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests	Dec 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available
Differentiable Scene Graphs	Feb 26, 2019	Visual Reasoning	CodeCode Available
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?	Oct 25, 2024	Visual Reasoning	CodeCode Available
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges	Jun 26, 2024	In-Context LearningTraveling Salesman Problem	CodeCode Available
Visual Reasoning by Progressive Module Networks	Jun 6, 2018	Visual Reasoning	CodeCode Available
A Corpus for Reasoning About Natural Language Grounded in Photographs	Nov 1, 2018	DiversityVisual Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 14 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified