Visual Reasoning

Ability to understand actions and reasoning associated with any visual images

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 698 papers

Title	Date	Tasks	Status	Hype
Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads	Apr 30, 2021	Question AnsweringVisual Question Answering	—Unverified	0
Comparing Visual Reasoning in Humans and AI	Apr 29, 2021	SentenceVisual Reasoning	—Unverified	0
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning	Apr 7, 2021	Representation LearningRetrieval	CodeCode Available	1
`Just because you are right, doesn't mean I am wrong': Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks	Apr 1, 2021	Question AnsweringVisual Question Answering	—Unverified	0
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning	Mar 30, 2021	Question AnsweringVideo Question Answering	—Unverified	0
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning	Mar 30, 2021	counterfactualObject	—Unverified	0
'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) Tasks	Mar 28, 2021	Question AnsweringVisual Question Answering	CodeCode Available	0
ACRE: Abstract Causal REasoning Beyond Covariation	Mar 26, 2021	BlockingCausal Discovery	—Unverified	0
Raven's Progressive Matrices Completion with Latent Gaussian Process Priors	Mar 22, 2021	Answer SelectionGaussian Processes	CodeCode Available	0
Data augmentation by morphological mixup for solving Raven's Progressive Matrices	Mar 9, 2021	Data AugmentationVisual Reasoning	—Unverified	0
Learning Transferable Visual Models From Natural Language Supervision	Feb 26, 2021	Action RecognitionBenchmarking	CodeCode Available	2
UniT: Multimodal Multitask Learning with a Unified Transformer	Feb 22, 2021	DecoderMultimodal Reasoning	CodeCode Available	0
Physical Reasoning Using Dynamics-Aware Models	Feb 20, 2021	Visual Reasoning	CodeCode Available	0
Improving Scene Graph Classification by Exploiting Knowledge from Texts	Feb 9, 2021	ClassificationGeneral Classification	—Unverified	0
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision	Feb 5, 2021	Cross-Modal RetrievalImage Retrieval	CodeCode Available	1
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach	Feb 3, 2021	Question AnsweringVisual Grounding	CodeCode Available	0
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified	0
Transformers in Vision: A Survey	Jan 4, 2021	Action RecognitionActivity Recognition	—Unverified	0
VinVL: Revisiting Visual Representations in Vision-Language Models	Jan 2, 2021	Image CaptioningImage-text matching	CodeCode Available	2
DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue	Jan 1, 2021	DiagnosticObject Tracking	CodeCode Available	1
Grounding Physical Object and Event Concepts Through Dynamic Visual Reasoning	Jan 1, 2021	counterfactualObject	—Unverified	0
Object-Centric Diagnosis of Visual Reasoning	Dec 21, 2020	DiagnosticObject	—Unverified	0
Attention over learned object embeddings enables complex visual reasoning	Dec 15, 2020	ObjectVideo Object Tracking	—Unverified	0
Odd-One-Out Representation Learning	Dec 14, 2020	DisentanglementMetric Learning	CodeCode Available	0
Multi-Label Contrastive Learning for Abstract Visual Reasoning	Dec 3, 2020	Contrastive LearningData Augmentation	CodeCode Available	0
Learning from Lexical Perturbations for Consistent Visual Question Answering	Nov 26, 2020	Question AnsweringVisual Question Answering	CodeCode Available	0
Transformation Driven Visual Reasoning	Nov 26, 2020	AttributeTriplet	CodeCode Available	1
Interpretable Visual Reasoning via Induced Symbolic Space	Nov 23, 2020	Visual Question Answering (VQA)Visual Reasoning	CodeCode Available	0
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs	Oct 15, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Contextual Modulation for Relation-Level Metaphor Identification	Oct 12, 2020	RelationVisual Reasoning	CodeCode Available	0
Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and Reasoning	Oct 2, 2020	Novel ConceptsRepresentation Learning	CodeCode Available	1
CLEVR Parser: A Graph Parser Library for Geometric Learning on Language Grounded Image Scenes	Sep 19, 2020	Graph Neural NetworkVisual Reasoning	CodeCode Available	0
A Distance-preserving Matrix Sketch	Sep 8, 2020	Clusteringfeature selection	CodeCode Available	0
Video Captioning Using Weak Annotation	Sep 2, 2020	SentenceVideo Captioning	—Unverified	0
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks	Aug 5, 2020	Common Sense ReasoningObject	CodeCode Available	1
A Closer Look at Generalisation in RAVEN	Aug 1, 2020	Visual Reasoning	CodeCode Available	1
TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering	Aug 1, 2020	ObjectQuestion Answering	—Unverified	0
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified	0
Few-shot Visual Reasoning with Meta-analogical Contrastive Learning	Jul 23, 2020	Contrastive LearningLogical Reasoning	—Unverified	0
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1
Multi-Granularity Modularized Network for Abstract Visual Reasoning	Jul 9, 2020	Visual GroundingVisual Reasoning	—Unverified	0
Self-Segregating and Coordinated-Segregating Transformer for Focused Deep Multi-Modular Network for Visual Question Answering	Jun 25, 2020	DiversityQuestion Answering	—Unverified	0
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"	Jun 20, 2020	Graph GenerationQuestion Answering	—Unverified	0
Abstract Diagrammatic Reasoning with Multiplex Graph Networks	Jun 19, 2020	Graph Neural NetworkVisual Reasoning	—Unverified	0
Forward Prediction for Physical Reasoning	Jun 18, 2020	PredictionVisual Reasoning	CodeCode Available	1
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1
Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image	Jun 9, 2020	Motion PlanningTask and Motion Planning	—Unverified	0
Attention-Based Context Aware Reasoning for Situation Recognition	Jun 1, 2020	Action RecognitionFine-grained Action Recognition	CodeCode Available	1
Webly Supervised Knowledge Embedding Model for Visual Reasoning	Jun 1, 2020	modelRepresentation Learning	—Unverified	0
Structured Multimodal Attentions for TextVQA	Jun 1, 2020	Graph AttentionOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 12 of 14Next →

All datasets Winoground NLVR2 Dev NLVR2 Test CLEVRER Bongard-OpenWorld WinoGAViL VSR PHYRE-1B-Cross PHYRE-1B-Within VASR IRFL: Image Recognition of Figurative Language NLVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o + CA	Text Score	75.5	—	Unverified
2	GPT-4V (CoT, pick b/w two options)	Text Score	75.25	—	Unverified
3	GPT-4V (pick b/w two options)	Text Score	69.25	—	Unverified
4	MMICL + CoCoT	Text Score	64.25	—	Unverified
5	GPT-4V + CoCoT	Text Score	58.5	—	Unverified
6	OpenFlamingo + CoCoT	Text Score	58.25	—	Unverified
7	GPT-4V	Text Score	54.5	—	Unverified
8	FIBER (EqSim)	Text Score	51.5	—	Unverified
9	FIBER (finetuned, Flickr30k)	Text Score	51.25	—	Unverified
10	MMICL + CCoT	Text Score	51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	91.51	—	Unverified
2	X2-VLM (large)	Accuracy	88.7	—	Unverified
3	XFM (base)	Accuracy	87.6	—	Unverified
4	X2-VLM (base)	Accuracy	86.2	—	Unverified
5	CoCa	Accuracy	86.1	—	Unverified
6	VLMo	Accuracy	85.64	—	Unverified
7	VK-OOD	Accuracy	84.6	—	Unverified
8	SimVLM	Accuracy	84.53	—	Unverified
9	X-VLM (base)	Accuracy	84.41	—	Unverified
10	VK-OOD	Accuracy	83.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	Accuracy	92.58	—	Unverified
2	X2-VLM (large)	Accuracy	89.4	—	Unverified
3	XFM (base)	Accuracy	88.4	—	Unverified
4	CoCa	Accuracy	87	—	Unverified
5	X2-VLM (base)	Accuracy	87	—	Unverified
6	VLMo	Accuracy	86.86	—	Unverified
7	SimVLM	Accuracy	85.15	—	Unverified
8	X-VLM (base)	Accuracy	84.76	—	Unverified
9	BLIP-129M	Accuracy	83.09	—	Unverified
10	ALBEF (14M)	Accuracy	82.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AI Core	Average-per ques.	95.24	—	Unverified
2	redherring	Average-per ques.	91.14	—	Unverified
3	VRDP	Average-per ques.	90.24	—	Unverified
4	Fighttttt	Average-per ques.	88.71	—	Unverified
5	neural	Average-per ques.	88.27	—	Unverified
6	NERV	Average-per ques.	88.05	—	Unverified
7	DCL	Average-per ques.	75.52	—	Unverified
8	troublesolver	Average-per ques.	73.3	—	Unverified
9	v0.1	Average-per ques.	73.1	—	Unverified
10	First_test	Average-per ques.	69.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Gemini-2.0 + CA	2-Class Accuracy	93.6	—	Unverified
2	GPT-4o + CA	2-Class Accuracy	92.8	—	Unverified
3	Human	2-Class Accuracy	91	—	Unverified
4	SNAIL	2-Class Accuracy	64	—	Unverified
5	InstructBLIP + GPT-4	2-Class Accuracy	63.8	—	Unverified
6	BLIP-2 + ChatGPT (Fine-tuned)	2-Class Accuracy	63.3	—	Unverified
7	InstructBLIP + ChatGPT + Neuro-Symbolic	2-Class Accuracy	55.5	—	Unverified
8	ChatCaptioner + ChatGPT	2-Class Accuracy	49.3	—	Unverified
9	Otter	2-Class Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	Jaccard Index	90	—	Unverified
2	ViLT (Zero-Shot)	Jaccard Index	52	—	Unverified
3	X-VLM (Zero-Shot)	Jaccard Index	46	—	Unverified
4	CLIP-ViT-B/32 (Zero-Shot)	Jaccard Index	41	—	Unverified
5	CLIP-ViT-L/14 (Zero-Shot)	Jaccard Index	40	—	Unverified
6	CLIP-RN50x64/14 (Zero-Shot)	Jaccard Index	38	—	Unverified
7	CLIP-RN50 (Zero-Shot)	Jaccard Index	35	—	Unverified
8	CLIP-ViL (Zero-Shot)	Jaccard Index	15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LXMERT	accuracy	70.1	—	Unverified
2	ViLT	accuracy	69.3	—	Unverified
3	CLIP (finetuned)	accuracy	65.1	—	Unverified
4	CLIP (frozen)	accuracy	56	—	Unverified
5	VisualBERT	accuracy	55.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RPIN	AUCCESS	42.2	—	Unverified
2	Dec[Joint]1f	AUCCESS	40.3	—	Unverified
3	Dynamics-Aware DQN	AUCCESS	39.9	—	Unverified
4	DQN	AUCCESS	36.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dynamics-Aware DQN	AUCCESS	85.2	—	Unverified
2	RPIN	AUCCESS	85.2	—	Unverified
3	Dec[Joint]1f	AUCCESS	80	—	Unverified
4	DQN	AUCCESS	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Swin	1:1 Accuracy	52.9	—	Unverified
2	ConvNeXt	1:1 Accuracy	51.2	—	Unverified
3	ViT	1:1 Accuracy	50.3	—	Unverified
4	DEiT	1:1 Accuracy	47.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Humans	1-of-100 Accuracy	100	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VisualBERT	Accuracy (Dev)	67.4	—	Unverified