Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 698 papers

Title	Date	Tasks	Status
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models	Nov 27, 2024	Visual Reasoning	—Unverified
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios	Nov 20, 2024	Question AnsweringVisual Question Answering (VQA)	—Unverified
Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking	Nov 20, 2024	BenchmarkingLanguage Modeling	—Unverified
Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting	Nov 19, 2024	3D GenerationGPU	—Unverified
On Erroneous Agreements of CLIP Image Embeddings	Nov 7, 2024	Visual Reasoning	CodeCode Available
Bootstrapping Top-down Information for Self-modulating Slot Attention	Nov 4, 2024	ObjectObject Discovery	—Unverified
Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems	Nov 2, 2024	SpecificityVisual Reasoning	—Unverified
Replace-then-Perturb: Targeted Adversarial Attacks With Visual Reasoning for Vision-Language Models	Nov 1, 2024	Adversarial AttackContrastive Learning	—Unverified
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning	Oct 30, 2024	BenchmarkingHallucination	—Unverified
Improving Generalization in Visual Reasoning via Self-Ensemble	Oct 28, 2024	Visual Question Answering (VQA)Visual Reasoning	—Unverified
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad?	Oct 25, 2024	Visual Reasoning	CodeCode Available
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom	Oct 18, 2024	Visual Reasoning	—Unverified
MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark	Oct 15, 2024	FairnessScene Text Recognition	CodeCode Available
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization	Oct 14, 2024	Explanation GenerationImage Forgery Detection	—Unverified
TVBench: Redesigning Video-Language Evaluation	Oct 10, 2024	Multiple-choiceOpen-Ended Question Answering	—Unverified
Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends	Oct 5, 2024	BenchmarkingChart Understanding	—Unverified
Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning	Sep 30, 2024	Visual Reasoning	CodeCode Available
GSON: A Group-based Social Navigation Framework with Large Multimodal Model	Sep 26, 2024	Autonomous VehiclesMotion Planning	—Unverified
Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing	Sep 26, 2024	Event DetectionObject	—Unverified
Enhancing Advanced Visual Reasoning Ability of Large Language Models	Sep 21, 2024	In-Context LearningVisual Reasoning	—Unverified
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models	Sep 19, 2024	GPUimage-classification	—Unverified
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available
What Makes a Maze Look Like a Maze?	Sep 12, 2024	Visual Reasoning	—Unverified
Critical Features Tracking on Triangulated Irregular Networks by a Scale-Space Method	Sep 10, 2024	Visual Reasoning	—Unverified
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct	Sep 9, 2024	DiversityVisual Reasoning	—Unverified
How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model?	Sep 3, 2024	In-Context LearningLanguage Modeling	CodeCode Available
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified
Multi-Modal Dialogue State Tracking for Playing GuessWhich Game	Aug 15, 2024	Dialogue State TrackingVisual Reasoning	CodeCode Available
ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling	Aug 7, 2024	AttributeLanguage Modeling	—Unverified
Compromising Embodied Agents with Contextual Backdoor Attacks	Aug 6, 2024	Autonomous DrivingRobot Manipulation	—Unverified
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning	Aug 5, 2024	Visual Reasoning	—Unverified
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap	Jul 31, 2024	Human-Object Interaction DetectionImage Reconstruction	CodeCode Available
Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM	Jul 31, 2024	In-Context LearningLayout Design	—Unverified
Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering	Jul 30, 2024	Code GenerationQuestion Answering	—Unverified
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
Untrained neural networks can demonstrate memorization-independent abstract reasoning	Jul 25, 2024	MemorizationVisual Reasoning	CodeCode Available
Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators	Jul 20, 2024	Action RecognitionCoLA	—Unverified
I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction	Jul 19, 2024	3D ReconstructionSpatial Reasoning	—Unverified
Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols	Jul 18, 2024	Visual Reasoning	—Unverified
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs	Jul 18, 2024	Contrastive LearningRepresentation Learning	—Unverified
SwitchCIT: Switching for Continual Instruction Tuning	Jul 16, 2024	Text GenerationVisual Reasoning	—Unverified
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models	Jul 15, 2024	Common Sense ReasoningMultiple-choice	—Unverified
Affordance-Guided Reinforcement Learning via Visual Prompting	Jul 14, 2024	reinforcement-learningReinforcement Learning	—Unverified
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning	Jul 11, 2024	Domain GeneralizationHuman-Object Interaction Detection	—Unverified
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?	Jun 28, 2024	Task PlanningVisual Reasoning	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges	Jun 26, 2024	In-Context LearningTraveling Salesman Problem	CodeCode Available
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects	Jun 22, 2024	Relational ReasoningVisual Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 8 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified