Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 698 papers

Title	Date	Tasks	Status	Hype
Interpreting and Controlling Vision Foundation Models via Text Explanations	Oct 16, 2023	Model EditingVisual Reasoning	CodeCode Available	1
Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World	Oct 16, 2023	Few-Shot LearningForm	CodeCode Available	1
Implicit Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Sep 21, 2023	Cross-Modal RetrievalImage Captioning	CodeCode Available	0
Visual Question Answering in the Medical Domain	Sep 20, 2023	Contrastive LearningMedical Visual Question Answering	—Unverified	0
A Continual Learning Paradigm for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks	Sep 18, 2023	Continual LearningVisual Reasoning	—Unverified	0
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning	Sep 14, 2023	HallucinationIn-Context Learning	CodeCode Available	2
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available	0
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models	Sep 8, 2023	Visual Reasoning	CodeCode Available	1
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models	Aug 31, 2023	Instruction FollowingVisual Reasoning	CodeCode Available	1
On the Potential of CLIP for Compositional Logical Reasoning	Aug 30, 2023	Logical ReasoningVisual Reasoning	—Unverified	0
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified	0
An Examination of the Compositionality of Large Generative Vision-Language Models	Aug 21, 2023	Visual Reasoning	CodeCode Available	1
Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories	Aug 21, 2023	ClassificationClustering	—Unverified	0
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified	0
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity Control	Aug 18, 2023	Image CaptioningText Generation	CodeCode Available	1
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning	Aug 18, 2023	Visual Reasoning	—Unverified	0
Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning	Aug 17, 2023	Common Sense ReasoningOptical Character Recognition	—Unverified	0
Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks	Aug 17, 2023	Question AnsweringText Generation	CodeCode Available	1
Learning logic programs by discovering higher-order abstractions	Aug 16, 2023	Inductive logic programmingProgram Synthesis	CodeCode Available	0
Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices	Aug 12, 2023	Visual Reasoning	CodeCode Available	0
3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment	Aug 8, 2023	3D Question Answering (3D-QA)Dense Captioning	CodeCode Available	2
TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models	Aug 7, 2023	HallucinationObject Hallucination	CodeCode Available	2
Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks	Jul 31, 2023	Image RetrievalObject	—Unverified	0
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Grounded Object Centric Learning	Jul 18, 2023	ObjectObject Discovery	—Unverified	0
How is ChatGPT's behavior changing over time?	Jul 18, 2023	Code GenerationLanguage Modelling	CodeCode Available	4
Does Visual Pretraining Help End-to-End Reasoning?	Jul 17, 2023	image-classificationImage Classification	—Unverified	0
Abstracting Concept-Changing Rules for Solving Raven's Progressive Matrix Problems	Jul 15, 2023	Answer GenerationAnswer Selection	—Unverified	0
Learning Differentiable Logic Programs for Abstract Visual Reasoning	Jul 3, 2023	Program inductionVisual Reasoning	CodeCode Available	1
Look, Remember and Reason: Grounded reasoning in videos with language models	Jun 30, 2023	Objectobject-detection	—Unverified	0
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available	0
PhD Thesis: Exploring the role of (self-)attention in cognitive and computer vision architecture	Jun 26, 2023	Visual ReasoningZero-shot Generalization	—Unverified	0
A Survey on Multimodal Large Language Models	Jun 23, 2023	HallucinationIn-Context Learning	—Unverified	0
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available	0
A Domain-Independent Agent Architecture for Adaptive Operation in Evolving Open Worlds	Jun 9, 2023	MinecraftVisual Reasoning	—Unverified	0
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding	Jun 9, 2023	Few-Shot Learningimage-classification	CodeCode Available	0
Systematic Visual Reasoning through Object-Centric Relational Abstraction	Jun 4, 2023	ObjectSystematic Generalization	CodeCode Available	0
Revisiting the Role of Language Priors in Vision-Language Models	Jun 2, 2023	Image-text matchingImage-text Retrieval	CodeCode Available	1
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers	May 27, 2023	Image CaptioningImage Retrieval	CodeCode Available	1
What You See is What You Read? Improving Text-Image Alignment Evaluation	May 17, 2023	Image GenerationImage to text	CodeCode Available	1
Measuring Progress in Fine-grained Vision-and-Language Understanding	May 12, 2023	Visual Reasoning	CodeCode Available	1
Simple Token-Level Confidence Improves Caption Correctness	May 11, 2023	HallucinationImage Captioning	—Unverified	0
Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs	May 10, 2023	Scene UnderstandingVisual Reasoning	—Unverified	0
Otter: A Multi-Modal Model with In-Context Instruction Tuning	May 5, 2023	GPUIn-Context Learning	CodeCode Available	4
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	0
Visual Reasoning: from State to Transformation	May 2, 2023	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	1
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7
Visual Instruction Tuning	Apr 17, 2023	1 Image, 2*2 Stitching3D Question Answering (3D-QA)	CodeCode Available	6
The role of object-centric representations, guided attention, and external memory on generalizing visual relations	Apr 14, 2023	RelationVisual Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 8 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified