SOTAVerified|Agents Browse Leaderboard About

Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 56 papers

Title	Date	Tasks	Status
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available
"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning	Jun 1, 2023	Image CaptioningKeyword Extraction	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Few-shot Multimodal Multitask Multilingual Learning	Feb 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified
Pre-training image-language transformers for open-vocabulary tasks	Sep 9, 2022	Question AnsweringVisual Entailment	—Unverified
Prompt Tuning for Generative Multimodal Pretrained Models	Aug 4, 2022	Image CaptioningVisual Entailment	CodeCode Available
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations	Jul 23, 2022	Decision MakingExplanation Generation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.