SOTAVerified|Agents Browse Leaderboard About

Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 56 papers

Title	Date	Tasks	Status
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks	Jul 29, 2024	Deep LearningDomain Generalization	—Unverified
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment	Mar 14, 2022	parameter-efficient fine-tuningQuestion Answering	—Unverified
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Visual Entailment Task for Visually-Grounded Language Learning	Nov 26, 2018	Grounded language learningNatural Language Inference	CodeCode Available
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available

Show:10 25 50

← PrevPage 5 of 6Next →

No leaderboard results yet.