Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 698 papers

Title	Date	Tasks	Status
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models	Mar 25, 2025	Image ComprehensionVisual Reasoning	—Unverified
Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation	Mar 21, 2025	Dataset GenerationGraph Generation	—Unverified
Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data	Mar 20, 2025	DiversityVisual Reasoning	—Unverified
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration	Mar 17, 2025	DenoisingQuestion Answering	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems	Mar 13, 2025	Visual Reasoning	—Unverified
Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study	Mar 9, 2025	QuantizationToken Reduction	—Unverified
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation	Mar 8, 2025	RAGRetrieval	—Unverified
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection	Mar 5, 2025	Anomaly DetectionObject	—Unverified
EXCLAIM: An Explainable Cross-Modal Agentic System for Misinformation Detection with Hierarchical Retrieval	Mar 1, 2025	Explanation GenerationMisinformation	—Unverified
M-LLM Based Video Frame Selection for Efficient Video Understanding	Feb 27, 2025	EgoSchemaLanguage Modeling	—Unverified
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems	Feb 27, 2025	BenchmarkingVisual Reasoning	—Unverified
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models	Feb 24, 2025	Visual Reasoning	—Unverified
Unraveling the geometry of visual relational reasoning	Feb 24, 2025	Relational ReasoningRelation Network	CodeCode Available
Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT	Feb 23, 2025	Bias DetectionVisual Reasoning	—Unverified
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models	Feb 23, 2025	BenchmarkingSpatial Reasoning	CodeCode Available
Chitrarth: Bridging Vision and Language for a Billion People	Feb 21, 2025	DiversityLanguage Modeling	—Unverified
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models	Feb 17, 2025	Instruction Followingvisual instruction following	—Unverified
Learning to Stop Overthinking at Test Time	Feb 16, 2025	Visual Reasoning	—Unverified
MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models	Feb 15, 2025	Natural Language UnderstandingVisual Reasoning	—Unverified
ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models	Feb 13, 2025	Visual Reasoning	—Unverified
Visual Agentic AI for Spatial Reasoning with a Dynamic API	Feb 10, 2025	Program SynthesisSpatial Reasoning	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation	Jan 30, 2025	MemorizationScene Understanding	—Unverified
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models	Jan 30, 2025	Instruction FollowingVisual Reasoning	—Unverified
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow	Jan 28, 2025	Instruction FollowingMixture-of-Experts	—Unverified
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs	Jan 23, 2025	DescriptiveDiagnostic	—Unverified
Systematic Abductive Reasoning via Diverse Relation Representations in Vector-symbolic Architecture	Jan 21, 2025	AttributeDiversity	—Unverified
MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science	Jan 18, 2025	Visual Reasoning	—Unverified
CityLoc: 6DoF Pose Distributional Localization for Text Descriptions in Large-Scale Scenes with Gaussian Representation	Jan 15, 2025	Language ModelingLanguage Modelling	—Unverified
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified
From Code to Compliance: Assessing ChatGPT's Utility in Designing an Accessible Webpage -- A Case Study	Jan 7, 2025	Prompt EngineeringVisual Reasoning	—Unverified
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction	Jan 3, 2025	Anomaly DetectionVisual Reasoning	—Unverified
Language-Guided Salient Object Ranking	Jan 1, 2025	ObjectSaliency Ranking	—Unverified
Probing Visual Language Priors in VLMs	Dec 31, 2024	Question AnsweringVisual Question Answering	—Unverified
Slow Perception: Let's Perceive Geometric Figures Step-by-step	Dec 30, 2024	MathVisual Reasoning	—Unverified
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available
Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities	Dec 21, 2024	AttributeClassification	—Unverified
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues	Dec 19, 2024	Change DetectionDisaster Response	—Unverified
ViUniT: Visual Unit Tests for More Robust Visual Programming	Dec 12, 2024	Image GenerationImage-text matching	—Unverified
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models	Dec 4, 2024	Depth Estimationobject-detection	—Unverified
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning	Dec 3, 2024	BenchmarkingVisual Reasoning	—Unverified
Learning Visual Abstract Reasoning through Dual-Stream Networks	Nov 29, 2024	Visual Reasoning	CodeCode Available
Abductive Symbolic Solver on Abstraction and Reasoning Corpus	Nov 27, 2024	ARCVisual Reasoning	—Unverified

Show:10 25 50

← PrevPage 7 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified