SOTAVerified|Agents Browse Leaderboard About

Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 56 papers

Title	Date	Tasks	Status	Hype
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified	0
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision	Nov 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	1
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified	0
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model	Oct 11, 2022	Contrastive LearningImage-text matching	CodeCode Available	1
Pre-training image-language transformers for open-vocabulary tasks	Sep 9, 2022	Question AnsweringVisual Entailment	—Unverified	0
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment	Aug 29, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
Prompt Tuning for Generative Multimodal Pretrained Models	Aug 4, 2022	Image CaptioningVisual Entailment	CodeCode Available	0
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations	Jul 23, 2022	Decision MakingExplanation Generation	CodeCode Available	0
MixGen: A New Multi-Modal Data Augmentation	Jun 16, 2022	Data AugmentationImage-text Retrieval	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 6Next →

No leaderboard results yet.