Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 698 papers

Title	Date	Tasks	Status
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
Towards Explainable Neural-Symbolic Visual Reasoning	Sep 19, 2019	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	—Unverified
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation	Jun 26, 2025	counterfactualCounterfactual Reasoning	—Unverified
Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning	Jun 8, 2025	AttributeHallucination	—Unverified
VGR: Visual Grounded Reasoning	Jun 13, 2025	Large Language ModelMath	—Unverified
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs	Jun 19, 2024	Spatial ReasoningVisual Reasoning	—Unverified
I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction	Jul 19, 2024	3D ReconstructionSpatial Reasoning	—Unverified
Abstract Diagrammatic Reasoning with Multiplex Graph Networks	Jun 19, 2020	Graph Neural NetworkVisual Reasoning	—Unverified
Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks	Jan 1, 2023	Cross-Modal RetrievalImage Captioning	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
GSON: A Group-based Social Navigation Framework with Large Multimodal Model	Sep 26, 2024	Autonomous VehiclesMotion Planning	—Unverified
Video Captioning Using Weak Annotation	Sep 2, 2020	SentenceVideo Captioning	—Unverified
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning	May 26, 2025	reinforcement-learningReinforcement Learning	—Unverified
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models	Sep 19, 2024	GPUimage-classification	—Unverified
Compromising Embodied Agents with Contextual Backdoor Attacks	Aug 6, 2024	Autonomous DrivingRobot Manipulation	—Unverified
Improving Generalization in Visual Reasoning via Self-Ensemble	Oct 28, 2024	Visual Question Answering (VQA)Visual Reasoning	—Unverified
Improving Scene Graph Classification by Exploiting Knowledge from Texts	Feb 9, 2021	ClassificationGeneral Classification	—Unverified
Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs	May 10, 2023	Scene UnderstandingVisual Reasoning	—Unverified
Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning	Jan 1, 2021	counterfactualObject	—Unverified
INFERNO: Inferring Object-Centric 3D Scene Representations without Supervision	Sep 29, 2021	ObjectVideo Object Tracking	—Unverified
A Survey on Multimodal Large Language Models	Jun 23, 2023	HallucinationIn-Context Learning	—Unverified
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning	Mar 30, 2021	counterfactualObject	—Unverified
Grounded Reinforcement Learning for Visual Reasoning	May 29, 2025	reinforcement-learningReinforcement Learning	—Unverified
Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation	Jan 30, 2025	MemorizationScene Understanding	—Unverified
GRIT: Teaching MLLMs to Think with Images	May 21, 2025	Reinforcement Learning (RL)Visual Reasoning	—Unverified
Graph Representation for Order-Aware Visual Transformation	Jan 1, 2023	Visual Reasoning	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
ViLEM: Visual-Language Error Modeling for Image-Text Retrieval	Jan 1, 2023	Contrastive LearningImage-text Retrieval	—Unverified
Grammar-Based Grounded Lexicon Learning	Feb 17, 2022	Network EmbeddingSentence	—Unverified
Introduction to Soar	May 8, 2022	ChunkingDecision Making	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs	Mar 30, 2025	Visual Reasoning	—Unverified
Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts	Jan 1, 2024	Image GenerationInstruction Following	—Unverified
Iterative Search for Weakly Supervised Semantic Parsing	Jun 1, 2019	Semantic ParsingVisual Reasoning	—Unverified
Iterative Visual Reasoning Beyond Convolutions	Mar 29, 2018	Visual Reasoning	—Unverified
It's Not About the Journey; It's About the Destination: Following Soft Paths Under Question-Guidance for Visual Reasoning	Jun 1, 2019	Transfer LearningVisual Reasoning	—Unverified
A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law	May 5, 2025	MathMedical Diagnosis	—Unverified
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos	Mar 2, 2023	Representation LearningSentence	—Unverified
ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling	Aug 7, 2024	AttributeLanguage Modeling	—Unverified
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning	Aug 5, 2024	Visual Reasoning	—Unverified
`Just because you are right, doesn't mean I am wrong': Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks	Apr 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Just Say the Name: Online Continual Learning with Category Names Only via Data Generation	Mar 16, 2024	Continual LearningDiversity	—Unverified
A-I-RAVEN and I-RAVEN-Mesh: Two New Benchmarks for Abstract Visual Reasoning	Jun 16, 2024	Transfer LearningVisual Reasoning	—Unverified
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified
A Review of Emerging Research Directions in Abstract Visual Reasoning	Feb 21, 2022	Visual Reasoning	—Unverified
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Language-Conditioned Robotic Manipulation with Fast and Slow Thinking	Jan 8, 2024	Decision MakingIntent Recognition	—Unverified
Language-Guided Salient Object Ranking	Jan 1, 2025	ObjectSaliency Ranking	—Unverified

Show:10 25 50

← PrevPage 13 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified