Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 698 papers

Title	Date	Tasks	Status	Hype
Analysis of Visual Reasoning on One-Stage Object Detection	Feb 26, 2022	Objectobject-detection	—Unverified	0
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	0
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified	0
A Review of Emerging Research Directions in Abstract Visual Reasoning	Feb 21, 2022	Visual Reasoning	—Unverified	0
Grammar-Based Grounded Lexicon Learning	Feb 17, 2022	Network EmbeddingSentence	—Unverified	0
The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning	Feb 10, 2022	DiagnosticVisual Abductive Reasoning	CodeCode Available	0
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models	Feb 8, 2022	DiagnosticImage Captioning	CodeCode Available	3
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available	0
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization	Feb 2, 2022	Quantizationreinforcement-learning	—Unverified	0
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices	Jan 28, 2022	Visual Reasoning	—Unverified	0
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation	Jan 28, 2022	Image CaptioningImage-text matching	CodeCode Available	5
Deconfounded Visual Grounding	Dec 31, 2021	Referring ExpressionVisual Grounding	CodeCode Available	0
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation	Dec 22, 2021	Common Sense ReasoningQuestion Answering	CodeCode Available	1
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning	Dec 9, 2021	DiagnosticInstance Segmentation	—Unverified	0
FLAVA: A Foundational Language And Vision Alignment Model	Dec 8, 2021	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
Robust Visual Reasoning via Language Guided Neural Module Networks	Dec 1, 2021	Question AnsweringReferring Expression	—Unverified	0
Recurrent Vision Transformer for Solving Visual Reasoning Problems	Nov 29, 2021	Object DetectionVisual Reasoning	—Unverified	0
An in-depth experimental study of sensor usage and visual reasoning of robots navigating in real environments	Nov 29, 2021	BenchmarkingVisual Navigation	—Unverified	0
Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction	Nov 24, 2021	Logical ReasoningVideo Prediction	—Unverified	0
Grounded Situation Recognition with Transformers	Nov 19, 2021	DecoderGrounded Situation Recognition	CodeCode Available	1
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts	Nov 16, 2021	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts	Nov 3, 2021	Image RetrievalImage-text Retrieval	CodeCode Available	1
An Empirical Study of Training End-to-End Vision-and-Language Transformers	Nov 3, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language	Oct 28, 2021	counterfactualVisual Reasoning	—Unverified	0
Neural-guided, Bidirectional Program Search for Abstraction and Reasoning	Oct 22, 2021	ARCProgram Synthesis	—Unverified	0
Neural Structure Mapping For Learning Abstract Visual Analogies	Oct 12, 2021	Visual AnalogiesVisual Reasoning	—Unverified	0
ProTo: Program-Guided Transformer for Program-Guided Tasks	Oct 2, 2021	Decision MakingLearning to Execute	CodeCode Available	1
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified	0
INFERNO: Inferring Object-Centric 3D Scene Representations without Supervision	Sep 29, 2021	ObjectVideo Object Tracking	—Unverified	0
Visually Grounded Reasoning across Languages and Cultures	Sep 28, 2021	Cross-Lingual TransferVisual Reasoning	CodeCode Available	1
DAReN: A Collaborative Approach Towards Reasoning And Disentangling	Sep 27, 2021	DisentanglementInductive Bias	—Unverified	0
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering	Sep 4, 2021	Question AnsweringSpatial Reasoning	CodeCode Available	0
VALSE: A Task-Independent Benchmark for Vision and Language Models centered on Linguistic Phenomena	Aug 17, 2021	Question AnsweringVisual Question Answering	—Unverified	0
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration	Aug 16, 2021	Visual Reasoning	CodeCode Available	1
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models	Aug 9, 2021	Composed Image Retrieval (CoIR)Image Retrieval	CodeCode Available	1
Understanding the computational demands underlying visual reasoning	Aug 8, 2021	Visual Reasoning	—Unverified	0
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
Enforcing Consistency in Weakly Supervised Semantic Parsing	Jul 13, 2021	Semantic ParsingVisual Reasoning	CodeCode Available	0
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified	0
Bottom-Up Shift and Reasoning for Referring Image Segmentation	Jun 19, 2021	Image SegmentationSegmentation	CodeCode Available	0
Explicit Knowledge Incorporation for Visual Reasoning	Jun 19, 2021	Visual Reasoning	—Unverified	0
Techniques for Symbol Grounding with SATNet	Jun 16, 2021	Logical ReasoningVisual Reasoning	CodeCode Available	0
Understanding and Evaluating Racial Biases in Image Captioning	Jun 16, 2021	BenchmarkingImage Captioning	CodeCode Available	1
Referring Transformer: A One-step Approach to Multi-task Visual Grounding	Jun 6, 2021	DecoderReferring Expression	CodeCode Available	1
Learning Relation Alignment for Calibrated Cross-modal Retrieval	May 28, 2021	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training	May 21, 2021	Question AnsweringRelation	—Unverified	0
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning	May 10, 2021	Arithmetic ReasoningGeometry Problem Solving	CodeCode Available	1
Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention	May 5, 2021	Question AnsweringReferring Expression	—Unverified	0

Show:10 25 50

← PrevPage 11 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified