Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 698 papers

Title	Date	Tasks	Status
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps	May 24, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified
Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators	Jul 20, 2024	Action RecognitionCoLA	—Unverified
Can We Automate Diagrammatic Reasoning?	Feb 13, 2019	Visual Reasoning	—Unverified
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data	Mar 20, 2025	DiversityVisual Reasoning	—Unverified
ChartBench: A Benchmark for Complex Visual Reasoning in Charts	Dec 26, 2023	Visual Reasoning	—Unverified
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified
ChartNet: Visual Reasoning over Statistical Charts using MAC-Networks	Nov 21, 2019	General ClassificationVisual Reasoning	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified
Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM	Jul 31, 2024	In-Context LearningLayout Design	—Unverified
Chitrarth: Bridging Vision and Language for a Billion People	Feb 21, 2025	DiversityLanguage Modeling	—Unverified
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads	Apr 30, 2021	Question AnsweringVisual Question Answering	—Unverified
CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation	Jan 15, 2025	Language ModelingLanguage Modelling	—Unverified
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs	Jan 23, 2025	DescriptiveDiagnostic	—Unverified
Comparing Visual Reasoning in Humans and AI	Apr 29, 2021	SentenceVisual Reasoning	—Unverified
Comparison Visual Instruction Tuning	Jun 13, 2024	Instruction FollowingNovelty Detection	—Unverified
Compositional Law Parsing with Latent Random Functions	Sep 15, 2022	PositionVisual Reasoning	—Unverified
Continual learning on 3D point clouds with random compressed rehearsal	May 16, 2022	Continual LearningVisual Reasoning	—Unverified
Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension	Mar 1, 2020	Referring ExpressionReferring Expression Comprehension	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Apr 2, 2022	Question AnsweringVisual Question Answering	—Unverified
Critical Features Tracking on Triangulated Irregular Networks by a Scale-Space Method	Sep 10, 2024	Visual Reasoning	—Unverified
Curriculum Learning for Compositional Visual Reasoning	Mar 27, 2023	Question AnsweringVisual Question Answering	—Unverified
DAReN: A Collaborative Approach Towards Reasoning And Disentangling	Sep 27, 2021	DisentanglementInductive Bias	—Unverified
Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning	Aug 17, 2023	Common Sense ReasoningOptical Character Recognition	—Unverified
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices	Jan 28, 2022	Visual Reasoning	—Unverified
Deep Neural Networks for Visual Reasoning	Sep 24, 2022	Multimodal ReasoningVisual Reasoning	—Unverified
Deep Reason: A Strong Baseline for Real-World Visual Reasoning	May 24, 2019	Visual Reasoning	—Unverified
Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image	Jun 9, 2020	Motion PlanningTask and Motion Planning	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning	May 24, 2025	document understandingVisual Reasoning	—Unverified
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?	Apr 18, 2025	MathVisual Reasoning	—Unverified
Does Structural Attention Improve Compositional Representations in Vision-Language Models?	Dec 3, 2022	Visual Reasoning	—Unverified
Does Visual Pretraining Help End-to-End Reasoning?	Jul 17, 2023	image-classificationImage Classification	—Unverified
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models	Feb 17, 2025	Instruction Followingvisual instruction following	—Unverified
Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models	Apr 27, 2025	Visual ReasoningWorld Knowledge	—Unverified
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified
Dual Local-Global Contextual Pathways for Recognition in Aerial Imagery	May 18, 2016	Object RecognitionRoad Segmentation	—Unverified
DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning	Mar 25, 2025	Visual Reasoning	—Unverified
Dynamic Graph Attention for Referring Expression Comprehension	Sep 18, 2019	Graph AttentionReferring Expression	—Unverified
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language	Oct 28, 2021	counterfactualVisual Reasoning	—Unverified
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues	Dec 19, 2024	Change DetectionDisaster Response	—Unverified
EgoReID: Cross-view Self-Identification and Human Re-identification in Egocentric and Surveillance Videos	Dec 24, 2016	Person Re-IdentificationVisual Reasoning	—Unverified
End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models	Feb 24, 2025	Visual Reasoning	—Unverified

Show:10 25 50

← PrevPage 7 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified