Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 698 papers

Title	Date	Tasks	Status	Hype
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified	0
What Is Missing in Multilingual Visual Reasoning and How to Fix It	Mar 3, 2024	Image CaptioningVisual Reasoning	CodeCode Available	0
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks	Mar 1, 2024	Visual Reasoning	CodeCode Available	1
Revisiting Disentanglement in Downstream Tasks: A Study on Its Necessity for Abstract Visual Reasoning	Mar 1, 2024	DisentanglementInformativeness	CodeCode Available	0
VISREAS: Complex Visual Reasoning with Unanswerable Questions	Feb 23, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image	Feb 22, 2024	Adversarial RobustnessMultimodal Reasoning	CodeCode Available	1
PALO: A Polyglot Large Multimodal Model for 5B People	Feb 22, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Visual Reasoning in Object-Centric Deep Neural Networks: A Comparative Cognition Approach	Feb 20, 2024	ObjectRelational Reasoning	CodeCode Available	0
Visual In-Context Learning for Large Vision-Language Models	Feb 18, 2024	In-Context LearningPosition	—Unverified	0
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling	Feb 9, 2024	HallucinationNatural Language Understanding	CodeCode Available	0
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations	Feb 6, 2024	Visual Reasoning	CodeCode Available	3
Neural networks for abstraction and reasoning: Towards broad generalization in machines	Feb 5, 2024	ARCVisual Reasoning	CodeCode Available	3
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified	0
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models	Jan 24, 2024	Visual Reasoning	CodeCode Available	1
Prompting Large Vision-Language Models for Compositional Reasoning	Jan 20, 2024	RetrievalVisual Reasoning	CodeCode Available	0
Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually	Jan 19, 2024	counterfactualCounterfactual Explanation	CodeCode Available	0
Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection	Jan 18, 2024	Answer GenerationAttribute	CodeCode Available	0
Language-Conditioned Robotic Manipulation with Fast and Slow Thinking	Jan 8, 2024	Decision MakingIntent Recognition	—Unverified	0
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs	Jan 5, 2024	Image ComprehensionImage to text	CodeCode Available	0
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified	0
Generate Subgoal Images before Act: Unlocking the Chain-of-Thought Reasoning in Diffusion Model for Robot Manipulation with Multimodal Prompts	Jan 1, 2024	Image GenerationInstruction Following	—Unverified	0
ChartBench: A Benchmark for Complex Visual Reasoning in Charts	Dec 26, 2023	Visual Reasoning	—Unverified	0
VCoder: Versatile Vision Encoders for Multimodal Large Language Models	Dec 21, 2023	Image CaptioningImage Generation	CodeCode Available	2
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise	Dec 19, 2023	MMEVisual Reasoning	CodeCode Available	0
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems	Dec 15, 2023	Odd One OutTransfer Learning	CodeCode Available	0
GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives	Dec 7, 2023	Graph GenerationLanguage Modelling	CodeCode Available	0
BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal Models	Dec 5, 2023	BenchmarkingVisual Question Answering	CodeCode Available	1
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning	Nov 30, 2023	Visual Reasoning	CodeCode Available	1
Leveraging VLM-Based Pipelines to Annotate 3D Objects	Nov 29, 2023	In-Context LearningLanguage Modeling	—Unverified	0
Compositional Chain-of-Thought Prompting for Large Multimodal Models	Nov 27, 2023	Language ModellingLarge Language Model	CodeCode Available	1
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI	Nov 27, 2023	Complex Query AnsweringLogical Reasoning	CodeCode Available	5
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs	Nov 27, 2023	Adversarial RobustnessVisual Question Answering (VQA)	CodeCode Available	1
From Wrong To Right: A Recursive Approach Towards Vision-Language Explanation	Nov 21, 2023	Explanation GenerationVisual Question Answering (VQA)	—Unverified	0
SelfEval: Leveraging the discriminative nature of generative models for evaluation	Nov 17, 2023	AttributeVisual Reasoning	—Unverified	0
The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task	Nov 15, 2023	Visual Reasoning	—Unverified	0
Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method	Nov 14, 2023	ARCDimensionality Reduction	CodeCode Available	0
Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels	Nov 12, 2023	PathfinderVisual Reasoning	—Unverified	0
Visual Commonsense based Heterogeneous Graph Contrastive Learning	Nov 11, 2023	Contrastive LearningQuestion Answering	—Unverified	0
Towards A Unified Neural Architecture for Visual Recognition and Reasoning	Nov 10, 2023	Objectobject-detection	—Unverified	0
GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs	Nov 8, 2023	Question AnsweringReferring Expression	CodeCode Available	1
NeuSyRE: Neuro-Symbolic Visual Understanding and Reasoning Framework based on Scene Graph Enrichment	Nov 5, 2023	Caption GenerationCommon Sense Reasoning	CodeCode Available	1
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning	Nov 2, 2023	MMEVisual Reasoning	CodeCode Available	1
Weakly Supervised Semantic Parsing with Execution-based Spurious Program Filtering	Nov 2, 2023	Semantic ParsingVisual Reasoning	CodeCode Available	1
Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection	Oct 29, 2023	Anomaly DetectionImage Captioning	CodeCode Available	1
OC-NMN: Object-centric Compositional Neural Module Network for Generative Visual Analogical Reasoning	Oct 28, 2023	Data AugmentationOut-of-Distribution Generalization	—Unverified	0
Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting	Oct 28, 2023	RelationVisual Reasoning	—Unverified	0
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese	Oct 27, 2023	Information RetrievalNatural Language Queries	CodeCode Available	0
Multimodal Representations for Teacher-Guided Compositional Visual Reasoning	Oct 24, 2023	Question AnsweringVisual Question Answering	—Unverified	0
What's Left? Concept Grounding with Logic-Enhanced Foundation Models	Oct 24, 2023	Visual Question Answering (VQA) Split AVisual Question Answering (VQA) Split B	CodeCode Available	1
Superpixel Semantics Representation and Pre-training for Vision-Language Task	Oct 20, 2023	Self-Supervised LearningSuperpixels	—Unverified	0

Show:10 25 50

← PrevPage 7 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified