Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 698 papers

Title	Date	Tasks	Status
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities	Jun 20, 2024	Spatial ReasoningVisual Reasoning	—Unverified
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs	Jun 19, 2024	Visual Reasoning	CodeCode Available
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs	Jun 19, 2024	Spatial ReasoningVisual Reasoning	—Unverified
Beyond Visual Appearances: Privacy-sensitive Objects Identification via Hybrid Graph Reasoning	Jun 18, 2024	Data AugmentationGraph Generation	—Unverified
A Unified View of Abstract Visual Reasoning Problems	Jun 16, 2024	Transfer LearningVisual Reasoning	—Unverified
A-I-RAVEN and I-RAVEN-Mesh: Two New Benchmarks for Abstract Visual Reasoning	Jun 16, 2024	Transfer LearningVisual Reasoning	—Unverified
What is the Visual Cognition Gap between Humans and Multimodal LLMs?	Jun 14, 2024	object-detectionObject Detection	CodeCode Available
Comparison Visual Instruction Tuning	Jun 13, 2024	Instruction FollowingNovelty Detection	—Unverified
Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems	Jun 11, 2024	In-Context LearningTraveling Salesman Problem	—Unverified
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model	Jun 1, 2024	Action RecognitionActivity Recognition	—Unverified
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning	May 28, 2024	Decision MakingVideo Understanding	—Unverified
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff	May 26, 2024	Code RepairLanguage Modeling	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model	May 16, 2024	Image InpaintingIn-Context Learning	—Unverified
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Learning to Compose: Improving Object Centric Learning by Injecting Compositionality	May 1, 2024	ObjectSystematic Generalization	CodeCode Available
Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners	Apr 30, 2024	3D visual groundingVisual Grounding	—Unverified
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models	Apr 26, 2024	Game DesignImage Generation	—Unverified
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified
Think-Program-reCtify: 3D Situated Reasoning with Large Language Models	Apr 23, 2024	Visual Reasoning	—Unverified
MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning	Apr 21, 2024	Visual Reasoning	CodeCode Available
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases	Apr 16, 2024	Autonomous DrivingVisual Reasoning	—Unverified
Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry	Apr 9, 2024	Automated Theorem ProvingCPU	—Unverified
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models	Mar 28, 2024	Instruction FollowingVisual Reasoning	—Unverified
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding	Mar 21, 2024	Pose EstimationVideo Understanding	CodeCode Available
Just Say the Name: Online Continual Learning with Category Names Only via Data Generation	Mar 16, 2024	Continual LearningDiversity	—Unverified
Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning	Mar 10, 2024	Human-Object Interaction DetectionPrediction	—Unverified
Slot Abstractors: Toward Scalable Abstract Visual Reasoning	Mar 6, 2024	ObjectSystematic Generalization	CodeCode Available
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified
What Is Missing in Multilingual Visual Reasoning and How to Fix It	Mar 3, 2024	Image CaptioningVisual Reasoning	CodeCode Available
Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning	Mar 1, 2024	DisentanglementInformativeness	CodeCode Available
VISREAS: Complex Visual Reasoning with Unanswerable Questions	Feb 23, 2024	Question AnsweringVisual Question Answering	—Unverified
Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach	Feb 20, 2024	ObjectRelational Reasoning	CodeCode Available
Visual In-Context Learning for Large Vision-Language Models	Feb 18, 2024	In-Context LearningPosition	—Unverified
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling	Feb 9, 2024	HallucinationNatural Language Understanding	CodeCode Available
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Prompting Large Vision-Language Models for Compositional Reasoning	Jan 20, 2024	RetrievalVisual Reasoning	CodeCode Available
Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually	Jan 19, 2024	counterfactualCounterfactual Explanation	CodeCode Available
Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection	Jan 18, 2024	Answer GenerationAttribute	—Unverified
Language-Conditioned Robotic Manipulation with Fast and Slow Thinking	Jan 8, 2024	Decision MakingIntent Recognition	—Unverified
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	—Unverified
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified
Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts	Jan 1, 2024	Image GenerationInstruction Following	—Unverified
ChartBench: A Benchmark for Complex Visual Reasoning in Charts	Dec 26, 2023	Visual Reasoning	—Unverified
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise	Dec 19, 2023	MMEVisual Reasoning	—Unverified
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems	Dec 15, 2023	Odd One OutTransfer Learning	CodeCode Available
GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives	Dec 7, 2023	Graph GenerationLanguage Modelling	CodeCode Available
Leveraging VLM-Based Pipelines to Annotate 3D Objects	Nov 29, 2023	In-Context LearningLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 9 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified