Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–698 of 698 papers

Title	Date	Tasks	Status	Hype
Making History Matter: History-Advantage Sequence Training for Visual Dialog	Feb 25, 2019	Answer GenerationDecoder	—Unverified	0
Can We Automate Diagrammatic Reasoning?	Feb 13, 2019	Visual Reasoning	—Unverified	0
When Causal Intervention Meets Adversarial Examples and Image Masking for Deep Neural Networks	Feb 9, 2019	Causal InferenceVisual Reasoning	CodeCode Available	0
Visual Entailment: A Novel Task for Fine-Grained Image Understanding	Jan 20, 2019	Natural Language InferenceQuestion Answering	—Unverified	0
Visual Reasoning of Feature Attribution with Deep Recurrent Neural Networks	Jan 17, 2019	ClassificationGeneral Classification	—Unverified	0
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available	0
Spatial Knowledge Distillation to aid Visual Reasoning	Dec 10, 2018	DiagnosticKnowledge Distillation	—Unverified	0
Learning to Assemble Neural Module Tree Networks for Visual Grounding	Dec 8, 2018	Dependency ParsingNatural Language Visual Grounding	—Unverified	0
Explainable and Explicit Visual Reasoning over Scene Graphs	Dec 5, 2018	Inductive BiasVisual Question Answering (VQA)	CodeCode Available	0
Learning to Compose Dynamic Tree Structures for Visual Contexts	Dec 5, 2018	Graph GenerationPanoptic Scene Graph Generation	CodeCode Available	2
A Corpus for Reasoning About Natural Language Grounded in Photographs	Nov 1, 2018	DiversityVisual Reasoning	CodeCode Available	0
Cascaded Mutual Modulation for Visual Reasoning	Sep 6, 2018	Question AnsweringVisual Question Answering	CodeCode Available	0
Mapping Natural Language Commands to Web Elements	Aug 28, 2018	Relational ReasoningVisual Reasoning	CodeCode Available	0
Visual Reasoning with Multi-hop Feature Modulation	Aug 3, 2018	Question AnsweringVisual Dialog	CodeCode Available	0
Weakly Supervised Semantic Parsing with Abstract Examples	Jul 1, 2018	Semantic ParsingVisual Reasoning	—Unverified	0
Modularity Matters: Learning Invariant Relational Reasoning Tasks	Jun 18, 2018	Mixture-of-ExpertsRelational Reasoning	—Unverified	0
Object Level Visual Reasoning in Videos	Jun 16, 2018	Activity RecognitionHuman Activity Recognition	CodeCode Available	0
Visual Reasoning by Progressive Module Networks	Jun 6, 2018	Visual Reasoning	CodeCode Available	0
Lexical Conceptual Structure of Literal and Metaphorical Spatial Language: A Case Study of ``Push''	Jun 1, 2018	Machine TranslationTranslation	—Unverified	0
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available	0
Object Ordering with Bidirectional Matchings for Visual Reasoning	Apr 18, 2018	ObjectVisual Reasoning	—Unverified	0
Iterative Visual Reasoning Beyond Convolutions	Mar 29, 2018	Visual Reasoning	—Unverified	0
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available	0
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning	Mar 14, 2018	Question AnsweringVisual Question Answering	CodeCode Available	0
Compositional Attention Networks for Machine Reasoning	Mar 8, 2018	Referring Expression ComprehensionVisual Question Answering (VQA)	CodeCode Available	1
Same-different problems strain convolutional neural networks	Feb 9, 2018	MemorizationVisual Reasoning	—Unverified	0
Benchmark Visual Question Answer Models by using Focus Map	Jan 13, 2018	Visual Reasoning	—Unverified	0
Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks	Jan 1, 2018	MemorizationQuestion Answering	—Unverified	0
Learning to Act Properly: Predicting and Explaining Affordances from Images	Dec 20, 2017	Visual Reasoning	—Unverified	0
Multi-Label Zero-Shot Learning with Structured Knowledge Graphs	Nov 17, 2017	General ClassificationKnowledge Graphs	CodeCode Available	0
Weakly-supervised Semantic Parsing with Abstract Examples	Nov 14, 2017	Semantic ParsingVisual Reasoning	CodeCode Available	0
Complete 3D Scene Parsing from an RGBD Image	Oct 25, 2017	DiversityRetrieval	CodeCode Available	0
FigureQA: An Annotated Figure Dataset for Visual Reasoning	Oct 19, 2017	BIG-bench Machine LearningChart Question Answering	CodeCode Available	0
Visual Reasoning with Natural Language	Oct 2, 2017	DescriptiveDiversity	—Unverified	0
FiLM: Visual Reasoning with a General Conditioning Layer	Sep 22, 2017	Image Retrieval with Multi-Modal QueryVisual Question Answering (VQA)	CodeCode Available	1
VSE++: Improving Visual-Semantic Embeddings with Hard Negatives	Jul 18, 2017	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Learning Visual Reasoning Without Strong Priors	Jul 10, 2017	Visual Reasoning	CodeCode Available	0
End-to-End Learning of Semantic Grasping	Jul 6, 2017	Objectobject-detection	—Unverified	0
A Corpus of Natural Language for Visual Reasoning	Jul 1, 2017	Question AnsweringVisual Question Answering (VQA)	—Unverified	0
How a General-Purpose Commonsense Ontology can Improve Performance of Learning-Based Image Retrieval	May 24, 2017	Image RetrievalRetrieval	CodeCode Available	0
Inferring and Executing Programs for Visual Reasoning	May 10, 2017	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	0
EgoReID: Cross-view Self-Identification and Human Re-identification in Egocentric and Surveillance Videos	Dec 24, 2016	Person Re-IdentificationVisual Reasoning	—Unverified	0
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning	Dec 20, 2016	DiagnosticQuestion Answering	CodeCode Available	1
Dual Local-Global Contextual Pathways for Recognition in Aerial Imagery	May 18, 2016	Object RecognitionRoad Segmentation	—Unverified	0
Filling in the details: Perceiving from low fidelity images	Apr 14, 2016	FoveationVisual Reasoning	—Unverified	0
Are Elephants Bigger than Butterflies? Reasoning about Sizes of Objects	Feb 2, 2016	Visual Reasoning	—Unverified	0
Predicting Complete 3D Models of Indoor Scenes	Apr 9, 2015	DiversityVisual Reasoning	CodeCode Available	0
Factorization of View-Object Manifolds for Joint Object Recognition and Pose Estimation	Mar 23, 2015	ObjectObject Recognition	—Unverified	0

Show:10 25 50

← PrevPage 14 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified