Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 698 papers

Title	Date	Tasks	Status
End-to-End Learning of Semantic Grasping	Jul 6, 2017	Objectobject-detection	—Unverified
Enhancing Advanced Visual Reasoning Ability of Large Language Models	Sep 21, 2024	In-Context LearningVisual Reasoning	—Unverified
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models	Nov 27, 2024	Visual Reasoning	—Unverified
Interactive Visual Reasoning under Uncertainty	Jun 18, 2022	Visual Reasoning	—Unverified
EuclidNet: Deep Visual Reasoning for Constructible Problems in Geometry	Dec 27, 2022	Automated Theorem ProvingVisual Reasoning	—Unverified
Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark	Jun 4, 2025	SentenceVisual Reasoning	—Unverified
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
Leveraging VLM-Based Pipelines to Annotate 3D Objects	Nov 29, 2023	In-Context LearningLanguage Modeling	—Unverified
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified
EXCLAIM: An Explainable Cross-Modal Agentic System for Misinformation Detection with Hierarchical Retrieval	Mar 1, 2025	Explanation GenerationMisinformation	—Unverified
Learning to Assemble Neural Module Tree Networks for Visual Grounding	Dec 8, 2018	Dependency ParsingNatural Language Visual Grounding	—Unverified
Explainable AI And Visual Reasoning: Insights From Radiology	Apr 6, 2023	DiagnosticExplainable Artificial Intelligence (XAI)	—Unverified
Explicit3D: Graph Network with Spatial Inference for Single Image 3D Object Detection	Feb 13, 2023	3D Object DetectionGraph Generation	—Unverified
Explicit Knowledge Incorporation for Visual Reasoning	Jun 19, 2021	Visual Reasoning	—Unverified
Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems	Jun 11, 2024	In-Context LearningTraveling Salesman Problem	—Unverified
Factorization of View-Object Manifolds for Joint Object Recognition and Pose Estimation	Mar 23, 2015	ObjectObject Recognition	—Unverified
Few-Shot Abstract Visual Reasoning With Spectral Features	Oct 4, 2019	Few-Shot LearningVisual Reasoning	—Unverified
Few-shot Subgoal Planning with Language Models	May 28, 2022	Language ModelingLanguage Modelling	—Unverified
Few-shot Visual Reasoning with Meta-analogical Contrastive Learning	Jul 23, 2020	Contrastive LearningLogical Reasoning	—Unverified
Filling in the details: Perceiving from low fidelity images	Apr 14, 2016	FoveationVisual Reasoning	—Unverified
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization	Oct 14, 2024	Explanation GenerationImage Forgery Detection	—Unverified
Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data	Jun 30, 2025	Visual ReasoningZero Shot Segmentation	—Unverified
From Code to Compliance: Assessing ChatGPT's Utility in Designing an Accessible Webpage -- A Case Study	Jan 7, 2025	Prompt EngineeringVisual Reasoning	—Unverified
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration	Mar 17, 2025	DenoisingQuestion Answering	—Unverified
From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering	Jun 25, 2022	Question AnsweringVisual Question Answering	—Unverified
From Visual to Acoustic Question Answering	Feb 28, 2019	Acoustic Question AnsweringPosition	—Unverified
From Wrong To Right: A Recursive Approach Towards Vision-Language Explanation	Nov 21, 2023	Explanation GenerationVisual Question Answering (VQA)	—Unverified
FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving	May 23, 2025	Autonomous DrivingImage Generation	—Unverified
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified
A-I-RAVEN and I-RAVEN-Mesh: Two New Benchmarks for Abstract Visual Reasoning	Jun 16, 2024	Transfer LearningVisual Reasoning	—Unverified
Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts	Jan 1, 2024	Image GenerationInstruction Following	—Unverified
GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs	Mar 30, 2025	Visual Reasoning	—Unverified
Grammar-Based Grounded Lexicon Learning	Feb 17, 2022	Network EmbeddingSentence	—Unverified
Graph Representation for Order-Aware Visual Transformation	Jan 1, 2023	Visual Reasoning	—Unverified
GRIT: Teaching MLLMs to Think with Images	May 21, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified
Grounded Reinforcement Learning for Visual Reasoning	May 29, 2025	reinforcement-learningReinforcement Learning	—Unverified
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning	Mar 30, 2021	counterfactualObject	—Unverified
Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning	Jan 1, 2021	counterfactualObject	—Unverified
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning	May 26, 2025	reinforcement-learningReinforcement Learning	—Unverified
GSON: A Group-based Social Navigation Framework with Large Multimodal Model	Sep 26, 2024	Autonomous VehiclesMotion Planning	—Unverified
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs	Jun 19, 2024	Spatial ReasoningVisual Reasoning	—Unverified
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified
Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning	Jun 8, 2025	AttributeHallucination	—Unverified
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation	Jun 26, 2025	counterfactualCounterfactual Reasoning	—Unverified
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified
Towards Explainable Neural-Symbolic Visual Reasoning	Sep 19, 2019	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	—Unverified
I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction	Jul 19, 2024	3D ReconstructionSpatial Reasoning	—Unverified
Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks	Jan 1, 2023	Cross-Modal RetrievalImage Captioning	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models	Sep 19, 2024	GPUimage-classification	—Unverified

Show:10 25 50

← PrevPage 8 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified