Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 698 papers

Title	Date	Tasks	Status
Improving Generalization in Visual Reasoning via Self-Ensemble	Oct 28, 2024	Visual Question Answering (VQA)Visual Reasoning	—Unverified
Improving Scene Graph Classification by Exploiting Knowledge from Texts	Feb 9, 2021	ClassificationGeneral Classification	—Unverified
Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs	May 10, 2023	Scene UnderstandingVisual Reasoning	—Unverified
INFERNO: Inferring Object-Centric 3D Scene Representations without Supervision	Sep 29, 2021	ObjectVideo Object Tracking	—Unverified
Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation	Jan 30, 2025	MemorizationScene Understanding	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Introduction to Soar	May 8, 2022	ChunkingDecision Making	—Unverified
Iterative Search for Weakly Supervised Semantic Parsing	Jun 1, 2019	Semantic ParsingVisual Reasoning	—Unverified
Iterative Visual Reasoning Beyond Convolutions	Mar 29, 2018	Visual Reasoning	—Unverified
It's Not About the Journey; It's About the Destination: Following Soft Paths Under Question-Guidance for Visual Reasoning	Jun 1, 2019	Transfer LearningVisual Reasoning	—Unverified
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos	Mar 2, 2023	Representation LearningSentence	—Unverified
`Just because you are right, doesn't mean I am wrong': Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks	Apr 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Just Say the Name: Online Continual Learning with Category Names Only via Data Generation	Mar 16, 2024	Continual LearningDiversity	—Unverified
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Language-Conditioned Robotic Manipulation with Fast and Slow Thinking	Jan 8, 2024	Decision MakingIntent Recognition	—Unverified
Language-Guided Salient Object Ranking	Jan 1, 2025	ObjectSaliency Ranking	—Unverified
Language-Vision Planner and Executor for Text-to-Visual Reasoning	Jun 9, 2025	In-Context LearningMME	—Unverified
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified
Learning Rope Manipulation Policies Using Dense Object Descriptors Trained on Synthetic Depth Data	Mar 3, 2020	Robot ManipulationVisual Reasoning	—Unverified
Learning to Act Properly: Predicting and Explaining Affordances from Images	Dec 20, 2017	Visual Reasoning	—Unverified
Learning to Agree on Vision Attention for Visual Commonsense Reasoning	Feb 4, 2023	Visual Commonsense ReasoningVisual Reasoning	—Unverified
Learning to Collocate Neural Modules for Image Captioning	Apr 18, 2019	DecoderImage Captioning	—Unverified
Learning to Compose and Reason with Language Tree Structures for Visual Grounding	Jun 5, 2019	Visual GroundingVisual Reasoning	—Unverified
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios	Nov 20, 2024	Question AnsweringVisual Question Answering (VQA)	—Unverified
Learning to Stop Overthinking at Test Time	Feb 16, 2025	Visual Reasoning	—Unverified
Lexical Conceptual Structure of Literal and Metaphorical Spatial Language: A Case Study of ``Push''	Jun 1, 2018	Machine TranslationTranslation	—Unverified
lilGym: Natural Language Visual Reasoning with Reinforcement Learning	Nov 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
LLMs Are Not Yet Ready for Deepfake Image Detection	Jun 12, 2025	DeepFake DetectionFace Swapping	—Unverified
Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs	Apr 30, 2025	HallucinationHallucination Evaluation	—Unverified
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction	Jan 3, 2025	Anomaly DetectionVisual Reasoning	—Unverified
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
Look, Remember and Reason: Grounded reasoning in videos with language models	Jun 30, 2023	Objectobject-detection	—Unverified
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation	Apr 15, 2025	Image CaptioningQuestion Answering	—Unverified
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
Making History Matter: History-Advantage Sequence Training for Visual Dialog	Feb 25, 2019	Answer GenerationDecoder	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science	Jan 18, 2025	Visual Reasoning	—Unverified
MATP-BENCH: Can MLLM Be a Good Automated Theorem Prover for Multimodal Problems?	Jun 6, 2025	Automated Theorem ProvingVisual Reasoning	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified
MET-Bench: Multimodal Entity Tracking for Evaluating the Limitations of Vision-Language and Reasoning Models	Feb 15, 2025	Natural Language UnderstandingVisual Reasoning	—Unverified
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM	May 30, 2025	HallucinationMultimodal Reasoning	—Unverified
M-LLM Based Video Frame Selection for Efficient Video Understanding	Feb 27, 2025	EgoSchemaLanguage Modeling	—Unverified
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning	May 28, 2024	Decision MakingVideo Understanding	—Unverified
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct	Sep 9, 2024	DiversityVisual Reasoning	—Unverified
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?	Jun 28, 2024	Task PlanningVisual Reasoning	—Unverified
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems	Feb 27, 2025	BenchmarkingVisual Reasoning	—Unverified
Modeling Gestalt Visual Reasoning on the Raven's Progressive Matrices Intelligence Test Using Generative Image Inpainting Techniques	Nov 18, 2019	Image InpaintingVisual Reasoning	—Unverified

Show:10 25 50

← PrevPage 9 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified