Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 698 papers

Title	Date	Tasks	Status
Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning	Mar 10, 2024	Human-Object Interaction DetectionPrediction	—Unverified
Bootstrapping Top-down Information for Self-modulating Slot Attention	Nov 4, 2024	ObjectObject Discovery	—Unverified
TextCaps: a Dataset for Image Captioning with Reading Comprehension	Mar 24, 2020	Image CaptioningOptical Character Recognition	—Unverified
A Corpus of Natural Language for Visual Reasoning	Jul 1, 2017	Question AnsweringVisual Question Answering (VQA)	—Unverified
V-PROM: A Benchmark for Visual Reasoning Using Visual Progressive Matrices	Jul 29, 2019	Visual Reasoning	—Unverified
The Eye of Sherlock Holmes: Uncovering User Private Attribute Profiling via Vision-Language Model Agentic Framework	May 25, 2025	AttributeLanguage Modeling	—Unverified
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges	Dec 26, 2022	Representation LearningVisual Question Answering (VQA)	—Unverified
The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task	Nov 15, 2023	Visual Reasoning	—Unverified
The role of object-centric representations, guided attention, and external memory on generalizing visual relations	Apr 14, 2023	RelationVisual Reasoning	—Unverified
Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry	Apr 9, 2024	Automated Theorem ProvingCPU	—Unverified
Think-Program-reCtify: 3D Situated Reasoning with Large Language Models	Apr 23, 2024	Visual Reasoning	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Boosting Cross-task Transferability of Adversarial Patches with Visual Relations	Apr 11, 2023	Image CaptioningObject Recognition	—Unverified
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models	Apr 26, 2024	Game DesignImage Generation	—Unverified
A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task	Apr 24, 2025	Question AnsweringRetrieval	—Unverified
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise	Dec 19, 2023	MMEVisual Reasoning	—Unverified
Towards A Unified Neural Architecture for Visual Recognition and Reasoning	Nov 10, 2023	Objectobject-detection	—Unverified
Big Generalizations with Small Data: Exploring the Role of Training Samples in Learning Adjectives of Size	Nov 1, 2019	Small Data Image ClassificationVisual Reasoning	—Unverified
Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection	Jan 18, 2024	Answer GenerationAttribute	—Unverified
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?	Dec 20, 2022	Question AnsweringRepresentation Learning	—Unverified
Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection	Mar 5, 2025	Anomaly DetectionObject	—Unverified
Transfer Learning in Visual and Relational Reasoning	Nov 27, 2019	Question AnsweringRelational Reasoning	—Unverified
Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking	Nov 20, 2024	BenchmarkingLanguage Modeling	—Unverified
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning	Jun 10, 2025	Task PlanningVisual Reasoning	—Unverified
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified
Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends	Oct 5, 2024	BenchmarkingChart Understanding	—Unverified
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs	Jul 18, 2024	Contrastive LearningRepresentation Learning	—Unverified
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning	Aug 18, 2023	Visual Reasoning	—Unverified
TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering	Aug 1, 2020	ObjectQuestion Answering	—Unverified
TVBench: Redesigning Video-Language Evaluation	Oct 10, 2024	Multiple-choiceOpen-Ended Question Answering	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Beyond Visual Appearances: Privacy-sensitive Objects Identification via Hybrid Graph Reasoning	Jun 18, 2024	Data AugmentationGraph Generation	—Unverified
Understanding the computational demands underlying visual reasoning	Aug 8, 2021	Visual Reasoning	—Unverified
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models	May 27, 2025	Question AnsweringVisual Reasoning	—Unverified
Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning	Jul 15, 2025	Visual Reasoning	—Unverified
Weakly Supervised Semantic Parsing with Abstract Examples	Jul 1, 2018	Semantic ParsingVisual Reasoning	—Unverified
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Unifying Vision-Language Representation Space with Single-tower Transformer	Nov 21, 2022	Contrastive LearningObject Localization	—Unverified
Benchmark Visual Question Answer Models by using Focus Map	Jan 13, 2018	Visual Reasoning	—Unverified
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases	Apr 16, 2024	Autonomous DrivingVisual Reasoning	—Unverified
Abstract Visual Reasoning with Tangram Shapes	Nov 29, 2022	Visual Reasoning	—Unverified
Grounded Object Centric Learning	Jul 18, 2023	ObjectObject Discovery	—Unverified
Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting	Nov 19, 2024	3D GenerationGPU	—Unverified
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Abstracting Concept-Changing Rules for Solving Raven's Progressive Matrix Problems	Jul 15, 2023	Answer GenerationAnswer Selection	—Unverified
A Unified View of Abstract Visual Reasoning Problems	Jun 16, 2024	Transfer LearningVisual Reasoning	—Unverified
Webly Supervised Knowledge Embedding Model for Visual Reasoning	Jun 1, 2020	modelRepresentation Learning	—Unverified
Attention on Abstract Visual Reasoning	Nov 14, 2019	Program inductionRelation	—Unverified

Show:10 25 50

← PrevPage 12 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified