Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 698 papers

Title	Date	Tasks	Status
Deep Neural Networks for Visual Reasoning	Sep 24, 2022	Multimodal ReasoningVisual Reasoning	—Unverified
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices	Jan 28, 2022	Visual Reasoning	—Unverified
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning	May 21, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models	Mar 28, 2024	Instruction FollowingVisual Reasoning	—Unverified
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation	Mar 8, 2025	RAGRetrieval	—Unverified
Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning	Aug 17, 2023	Common Sense ReasoningOptical Character Recognition	—Unverified
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities	Jun 20, 2024	Spatial ReasoningVisual Reasoning	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training	May 21, 2021	Question AnsweringRelation	—Unverified
Probing Visual Language Priors in VLMs	Dec 31, 2024	Question AnsweringVisual Question Answering	—Unverified
Procedural Reasoning Networks for Understanding Multimodal Procedures	Sep 19, 2019	Inductive BiasVisual Reasoning	—Unverified
Visual Reasoning of Feature Attribution with Deep Recurrent Neural Networks	Jan 17, 2019	ClassificationGeneral Classification	—Unverified
Zero-shot visual reasoning through probabilistic analogical mapping	Sep 29, 2022	Visual Reasoning	—Unverified
Visual Reasoning with Natural Language	Oct 2, 2017	DescriptiveDiversity	—Unverified
Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention	May 5, 2021	Question AnsweringReferring Expression	—Unverified
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom	Oct 18, 2024	Visual Reasoning	—Unverified
DAReN: A Collaborative Approach Towards Reasoning And Disentangling	Sep 27, 2021	DisentanglementInductive Bias	—Unverified
Curriculum Learning for Compositional Visual Reasoning	Mar 27, 2023	Question AnsweringVisual Question Answering	—Unverified
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning	Dec 9, 2021	DiagnosticInstance Segmentation	—Unverified
Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering	Jul 30, 2024	Code GenerationQuestion Answering	—Unverified
PyVision: Agentic Vision with Dynamic Tooling	Jul 10, 2025	Visual Reasoning	—Unverified
Critical Features Tracking on Triangulated Irregular Networks by a Scale-Space Method	Sep 10, 2024	Visual Reasoning	—Unverified
A Domain-Independent Agent Architecture for Adaptive Operation in Evolving Open Worlds	Jun 9, 2023	MinecraftVisual Reasoning	—Unverified
Question Guided Modular Routing Networks for Visual Question Answering	Apr 17, 2019	Question AnsweringVisual Question Answering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Apr 2, 2022	Question AnsweringVisual Question Answering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
RAVEN: A Dataset for Relational and Analogical Visual rEasoNing	Mar 7, 2019	Object RecognitionQuestion Answering	—Unverified
A Divide-Align-Conquer Strategy for Program Synthesis	Jan 8, 2023	ARCInductive logic programming	—Unverified
RBench-V: A Primary Assessment for Visual Reasoning Models with Multi-modal Outputs	May 22, 2025	Image ManipulationMath	—Unverified
Reason from Context with Self-supervised Learning	Nov 23, 2022	ObjectObject Recognition	—Unverified
Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems	Nov 2, 2024	SpecificityVisual Reasoning	—Unverified
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified
Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension	Mar 1, 2020	Referring ExpressionReferring Expression Comprehension	—Unverified
Recurrent Vision Transformer for Solving Visual Reasoning Problems	Nov 29, 2021	Object DetectionVisual Reasoning	—Unverified
Continual learning on 3D point clouds with random compressed rehearsal	May 16, 2022	Continual LearningVisual Reasoning	—Unverified
Compositional Law Parsing with Latent Random Functions	Sep 15, 2022	PositionVisual Reasoning	—Unverified
Comparison Visual Instruction Tuning	Jun 13, 2024	Instruction FollowingNovelty Detection	—Unverified
Comparing Visual Reasoning in Humans and AI	Apr 29, 2021	SentenceVisual Reasoning	—Unverified
Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models	Nov 1, 2024	Adversarial AttackContrastive Learning	—Unverified
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models	Jan 30, 2025	Instruction FollowingVisual Reasoning	—Unverified
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs	Jan 23, 2025	DescriptiveDiagnostic	—Unverified
Retrieving and Highlighting Action with Spatiotemporal Reference	May 19, 2020	Action RecognitionCross-Modal Retrieval	—Unverified
Data augmentation by morphological mixup for solving Raven's Progressive Matrices	Mar 9, 2021	Data AugmentationVisual Reasoning	—Unverified
Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities	Dec 21, 2024	AttributeClassification	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models	Mar 25, 2025	Image ComprehensionVisual Reasoning	—Unverified
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified