Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 698 papers

Title	Date	Tasks	Status
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs	Jun 27, 2025	Visual Reasoning	—Unverified
Same-different problems strain convolutional neural networks	Feb 9, 2018	MemorizationVisual Reasoning	—Unverified
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection	May 26, 2025	Diversityreinforcement-learning	—Unverified
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems	Mar 13, 2025	Visual Reasoning	—Unverified
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models	May 26, 2025	Uncertainty QuantificationVisual Reasoning	—Unverified
CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation	Jan 15, 2025	Language ModelingLanguage Modelling	—Unverified
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads	Apr 30, 2021	Question AnsweringVisual Question Answering	—Unverified
Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories	Aug 21, 2023	ClassificationClustering	—Unverified
Chitrarth: Bridging Vision and Language for a Billion People	Feb 21, 2025	DiversityLanguage Modeling	—Unverified
Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM	Jul 31, 2024	In-Context LearningLayout Design	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified
ChartNet: Visual Reasoning over Statistical Charts using MAC-Networks	Nov 21, 2019	General ClassificationVisual Reasoning	—Unverified
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified
SelfEval: Leveraging the discriminative nature of generative models for evaluation	Nov 17, 2023	AttributeVisual Reasoning	—Unverified
Self-Segregating and Coordinated-Segregating Transformer for Focused Deep Multi-Modular Network for Visual Question Answering	Jun 25, 2020	DiversityQuestion Answering	—Unverified
ChartBench: A Benchmark for Complex Visual Reasoning in Charts	Dec 26, 2023	Visual Reasoning	—Unverified
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
SHOP-VRB: A Visual Reasoning Benchmark for Object Perception	Apr 6, 2020	ObjectVisual Reasoning	—Unverified
Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study	Mar 9, 2025	QuantizationToken Reduction	—Unverified
Simple Token-Level Confidence Improves Caption Correctness	May 11, 2023	HallucinationImage Captioning	—Unverified
Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data	Mar 20, 2025	DiversityVisual Reasoning	—Unverified
2nd Place Solution to the GQA Challenge 2019	Jul 16, 2019	Question AnsweringVisual Question Answering	—Unverified
Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL	May 21, 2025	4kMultimodal Reasoning	—Unverified
Slow Perception: Let's Perceive Geometric Figures Step-by-step	Dec 30, 2024	MathVisual Reasoning	—Unverified
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models	Apr 21, 2025	AttributeVisual Reasoning	—Unverified
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified
Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence	Jun 1, 2019	Question AnsweringVisual Reasoning	—Unverified
Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions	Jun 10, 2025	Visual Reasoning	—Unverified
ViUniT: Visual Unit Tests for More Robust Visual Programming	Dec 12, 2024	Image GenerationImage-text matching	—Unverified
VL-BEiT: Generative Vision-Language Pretraining	Jun 2, 2022	image-classificationImage Classification	—Unverified
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified
Can We Automate Diagrammatic Reasoning?	Feb 13, 2019	Visual Reasoning	—Unverified
Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators	Jul 20, 2024	Action RecognitionCoLA	—Unverified
Spatial Knowledge Distillation to aid Visual Reasoning	Dec 10, 2018	DiagnosticKnowledge Distillation	—Unverified
Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels	Nov 12, 2023	PathfinderVisual Reasoning	—Unverified
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making	May 6, 2025	Decision MakingGeneral Knowledge	—Unverified
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps	May 24, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography	Apr 14, 2025	BenchmarkingVisual Reasoning	—Unverified
SwitchCIT: Switching for Continual Instruction Tuning	Jul 16, 2024	Text GenerationVisual Reasoning	—Unverified
Synthetic Visual Genome	Jun 9, 2025	Referring ExpressionReferring Expression Comprehension	—Unverified
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis	Jun 2, 2025	8kMath	—Unverified
Systematic Abductive Reasoning via Diverse Relation Representations in Vector-symbolic Architecture	Jan 21, 2025	AttributeDiversity	—Unverified
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization	Feb 2, 2022	Quantizationreinforcement-learning	—Unverified
Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks	Jul 31, 2023	Image RetrievalObject	—Unverified
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
VLM@school -- Evaluation of AI image understanding on German middle school knowledge	Jun 13, 2025	Visual Reasoning	—Unverified
World-aware Planning Narratives Enhance Large Vision-Language Model Planner	Jun 26, 2025	Imitation LearningLanguage Modeling	—Unverified
ACRE: Abstract Causal REasoning Beyond Covariation	Mar 26, 2021	BlockingCausal Discovery	—Unverified

Show:10 25 50

← PrevPage 11 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified