SOTAVerified|Agents Browse Leaderboard About

Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 56 papers

Title	Date	Tasks	Status	Hype
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified	0
Visual Spatial Reasoning	Apr 30, 2022	Spatial Reasoning	CodeCode Available	1
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment	Mar 14, 2022	parameter-efficient fine-tuningQuestion Answering	—Unverified	0
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks	Mar 9, 2022	Decision MakingExplainable artificial intelligence	CodeCode Available	1
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment	Mar 1, 2022	RetrievalSentence	—Unverified	0
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available	0
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Logically at Factify 2022: Multimodal Fact Verification	Dec 16, 2021	BenchmarkingFact Checking	—Unverified	0

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.