Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 698 papers

Title	Date	Tasks	Status
Visual Analytics of Neuron Vulnerability to Adversarial Attacks on Convolutional Neural Networks	Mar 6, 2023	Autonomous DrivingMedical Diagnosis	—Unverified
Learning to reason over visual objects	Mar 3, 2023	Inductive BiasVisual Reasoning	CodeCode Available
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos	Mar 2, 2023	Representation LearningSentence	—Unverified
Explicit3D: Graph Network with Spatial Inference for Single Image 3D Object Detection	Feb 13, 2023	3D Object DetectionGraph Generation	—Unverified
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available
Learning to Agree on Vision Attention for Visual Commonsense Reasoning	Feb 4, 2023	Visual Commonsense ReasoningVisual Reasoning	—Unverified
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks	Jan 12, 2023	Cross-Modal RetrievalOpen-Ended Question Answering	CodeCode Available
A Divide-Align-Conquer Strategy for Program Synthesis	Jan 8, 2023	ARCInductive logic programming	—Unverified
Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge	Jan 1, 2023	Decision MakingQuestion Answering	CodeCode Available
Open Set Video HOI detection from Action-Centric Chain-of-Look Prompting	Jan 1, 2023	Human-Object Interaction DetectionLanguage Modelling	—Unverified
Unicode Analogies: An Anti-Objectivist Visual Reasoning Challenge	Jan 1, 2023	NavigateVisual Reasoning	CodeCode Available
ViLEM: Visual-Language Error Modeling for Image-Text Retrieval	Jan 1, 2023	Contrastive LearningImage-text Retrieval	—Unverified
Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks	Jan 1, 2023	Cross-Modal RetrievalImage Captioning	—Unverified
Graph Representation for Order-Aware Visual Transformation	Jan 1, 2023	Visual Reasoning	—Unverified
EuclidNet: Deep Visual Reasoning for Constructible Problems in Geometry	Dec 27, 2022	Automated Theorem ProvingVisual Reasoning	—Unverified
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges	Dec 26, 2022	Representation LearningVisual Question Answering (VQA)	—Unverified
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?	Dec 20, 2022	Question AnsweringRepresentation Learning	—Unverified
VASR: Visual Analogies of Situation Recognition	Dec 8, 2022	Common Sense ReasoningTriplet	CodeCode Available
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests	Dec 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available
Does Structural Attention Improve Compositional Representations in Vision-Language Models?	Dec 3, 2022	Visual Reasoning	—Unverified
Abstract Visual Reasoning with Tangram Shapes	Nov 29, 2022	Visual Reasoning	—Unverified
Reason from Context with Self-supervised Learning	Nov 23, 2022	ObjectObject Recognition	—Unverified
Unifying Vision-Language Representation Space with Single-tower Transformer	Nov 21, 2022	Contrastive LearningObject Localization	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
lilGym: Natural Language Visual Reasoning with Reinforcement Learning	Nov 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning	Oct 4, 2022	Image CaptioningSentence	CodeCode Available
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach	Oct 3, 2022	Referring ExpressionRobot Manipulation	CodeCode Available
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available
Zero-shot visual reasoning through probabilistic analogical mapping	Sep 29, 2022	Visual Reasoning	—Unverified
Deep Neural Networks for Visual Reasoning	Sep 24, 2022	Multimodal ReasoningVisual Reasoning	—Unverified
Compositional Law Parsing with Latent Random Functions	Sep 15, 2022	PositionVisual Reasoning	—Unverified
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	—Unverified
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks	Aug 22, 2022	AllCross-Modal Retrieval	CodeCode Available
One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning	Jul 31, 2022	AllReferring Expression	—Unverified
WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models	Jul 25, 2022	Common Sense ReasoningGeneral Knowledge	CodeCode Available
3D Concept Grounding on Neural Fields	Jul 13, 2022	Instance SegmentationQuestion Answering	—Unverified
From Shallow to Deep: Compositional Reasoning over Graphs for Visual Question Answering	Jun 25, 2022	Question AnsweringVisual Question Answering	—Unverified
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives	Jun 22, 2022	Feature ImportanceQuestion Answering	CodeCode Available
SAViR-T: Spatially Attentive Visual Reasoning with Transformers	Jun 18, 2022	Inductive BiasVisual Reasoning	CodeCode Available
Interactive Visual Reasoning under Uncertainty	Jun 18, 2022	Visual Reasoning	—Unverified
GAMR: A Guided Attention Model for (visual) Reasoning	Jun 10, 2022	modelVisual Reasoning	CodeCode Available
VL-BEiT: Generative Vision-Language Pretraining	Jun 2, 2022	image-classificationImage Classification	—Unverified
Few-shot Subgoal Planning with Language Models	May 28, 2022	Language ModelingLanguage Modelling	—Unverified
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified
Continual learning on 3D point clouds with random compressed rehearsal	May 16, 2022	Continual LearningVisual Reasoning	—Unverified
Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering	May 9, 2022	multimodal interactionQuestion Answering	CodeCode Available
Introduction to Soar	May 8, 2022	ChunkingDecision Making	—Unverified
QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning	May 6, 2022	DiagnosticQuestion Answering	CodeCode Available
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified

Show:10 25 50

← PrevPage 11 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified