Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 698 papers

Title	Date	Tasks	Status
Co-VQA : Answering by Interactive Sub Question Sequence	Apr 2, 2022	Question AnsweringVisual Question Answering	—Unverified
Analysis of Visual Reasoning on One-Stage Object Detection	Feb 26, 2022	Objectobject-detection	—Unverified
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified
A Review of Emerging Research Directions in Abstract Visual Reasoning	Feb 21, 2022	Visual Reasoning	—Unverified
Grammar-Based Grounded Lexicon Learning	Feb 17, 2022	Network EmbeddingSentence	—Unverified
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning	Feb 10, 2022	DiagnosticVisual Abductive Reasoning	CodeCode Available
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization	Feb 2, 2022	Quantizationreinforcement-learning	—Unverified
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices	Jan 28, 2022	Visual Reasoning	—Unverified
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning	Dec 9, 2021	DiagnosticInstance Segmentation	—Unverified
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified
An in-depth experimental study of sensor usage and visual reasoning of robots navigating in real environments	Nov 29, 2021	BenchmarkingVisual Navigation	—Unverified
Recurrent Vision Transformer for Solving Visual Reasoning Problems	Nov 29, 2021	Object DetectionVisual Reasoning	—Unverified
Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction	Nov 24, 2021	Logical ReasoningVideo Prediction	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language	Oct 28, 2021	counterfactualVisual Reasoning	—Unverified
Neural-guided, Bidirectional Program Search for Abstraction and Reasoning	Oct 22, 2021	ARCProgram Synthesis	—Unverified
Neural Structure Mapping For Learning Abstract Visual Analogies	Oct 12, 2021	Visual AnalogiesVisual Reasoning	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
INFERNO: Inferring Object-Centric 3D Scene Representations without Supervision	Sep 29, 2021	ObjectVideo Object Tracking	—Unverified
DAReN: A Collaborative Approach Towards Reasoning And Disentangling	Sep 27, 2021	DisentanglementInductive Bias	—Unverified
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified
Understanding the computational demands underlying visual reasoning	Aug 8, 2021	Visual Reasoning	—Unverified
Enforcing Consistency in Weakly Supervised Semantic Parsing	Jul 13, 2021	Semantic ParsingVisual Reasoning	CodeCode Available
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
Bottom-Up Shift and Reasoning for Referring Image Segmentation	Jun 19, 2021	Image SegmentationSegmentation	CodeCode Available
Explicit Knowledge Incorporation for Visual Reasoning	Jun 19, 2021	Visual Reasoning	—Unverified
Techniques for Symbol Grounding with SATNet	Jun 16, 2021	Logical ReasoningVisual Reasoning	CodeCode Available
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training	May 21, 2021	Question AnsweringRelation	—Unverified
Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention	May 5, 2021	Question AnsweringReferring Expression	—Unverified
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads	Apr 30, 2021	Question AnsweringVisual Question Answering	—Unverified
Comparing Visual Reasoning in Humans and AI	Apr 29, 2021	SentenceVisual Reasoning	—Unverified
`Just because you are right, doesn't mean I am wrong': Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks	Apr 1, 2021	Question AnsweringVisual Question Answering	—Unverified
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning	Mar 30, 2021	Question AnsweringVideo Question Answering	—Unverified
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning	Mar 30, 2021	counterfactualObject	—Unverified
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks	Mar 28, 2021	Question AnsweringVisual Question Answering	CodeCode Available
ACRE: Abstract Causal REasoning Beyond Covariation	Mar 26, 2021	BlockingCausal Discovery	—Unverified
Raven's Progressive Matrices Completion with Latent Gaussian Process Priors	Mar 22, 2021	Answer SelectionGaussian Processes	CodeCode Available
Data augmentation by morphological mixup for solving Raven's Progressive Matrices	Mar 9, 2021	Data AugmentationVisual Reasoning	—Unverified
UniT: Multimodal Multitask Learning with a Unified Transformer	Feb 22, 2021	DecoderMultimodal Reasoning	CodeCode Available
Physical Reasoning Using Dynamics-Aware Models	Feb 20, 2021	Visual Reasoning	CodeCode Available
Improving Scene Graph Classification by Exploiting Knowledge from Texts	Feb 9, 2021	ClassificationGeneral Classification	—Unverified
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified
Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning	Jan 1, 2021	counterfactualObject	—Unverified
Object-Centric Diagnosis of Visual Reasoning	Dec 21, 2020	DiagnosticObject	—Unverified

Show:10 25 50

← PrevPage 12 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	X2-VLM (base)	Accuracy	87	—	Unverified
5	CoCa	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	85.2	—	Unverified
2	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified