Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 56 papers

Title	Date	Tasks	Status	Hype
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization	Dec 19, 2024	Contrastive LearningDecision Making	CodeCode Available	1
Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation	Jun 11, 2024	Grounded Multimodal Named Entity Recognitionnamed-entity-recognition	CodeCode Available	1
Understanding Figurative Meaning through Explainable Visual Entailment	May 2, 2024	Question AnsweringVisual Entailment	CodeCode Available	1
MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion	Mar 14, 2024	DisentanglementMultimodal Deep Learning	CodeCode Available	1
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition	Feb 15, 2024	Grounded Multimodal Named Entity RecognitionMulti-modal Named Entity Recognition	CodeCode Available	1
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning	Dec 15, 2023	Factual Inconsistency Detection in Chart CaptioningImage Captioning	CodeCode Available	1
Good Questions Help Zero-Shot Image Reasoning	Dec 4, 2023	Fine-Grained Image ClassificationQuestion Answering	CodeCode Available	1
I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors	May 24, 2023	Visual Entailment	CodeCode Available	1
Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift	Dec 15, 2022	BenchmarkingImage Captioning	CodeCode Available	1
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations	Dec 8, 2022	Explanation GenerationVisual Entailment	CodeCode Available	1
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision	Nov 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	1
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model	Oct 11, 2022	Contrastive LearningImage-text matching	CodeCode Available	1
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment	Aug 29, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
MixGen: A New Multi-Modal Data Augmentation	Jun 16, 2022	Data AugmentationImage-text Retrieval	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1
Visual Spatial Reasoning	Apr 30, 2022	Spatial Reasoning	CodeCode Available	1
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks	Mar 9, 2022	Decision MakingExplainable artificial intelligence	CodeCode Available	1
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1
Check It Again: Progressive Visual Question Answering via Visual Entailment	Jun 8, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning	Apr 7, 2021	Representation LearningRetrieval	CodeCode Available	1
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks	Jul 29, 2024	Deep LearningDomain Generalization	—Unverified	0
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing	Mar 5, 2024	Multimodal ReasoningSentence	CodeCode Available	0
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified	0
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models	Dec 17, 2023	Image CaptioningQuestion Answering	CodeCode Available	0
Lightweight In-Context Tuning for Multimodal Unified Models	Oct 8, 2023	Image CaptioningIn-Context Learning	—Unverified	0
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages	Jun 29, 2023	Image-text RetrievalMachine Translation	CodeCode Available	0
"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning	Jun 1, 2023	Image CaptioningKeyword Extraction	—Unverified	0
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified	0
Few-shot Multimodal Multitask Multilingual Learning	Feb 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified	0
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified	0
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified	0
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified	0
Pre-training image-language transformers for open-vocabulary tasks	Sep 9, 2022	Question AnsweringVisual Entailment	—Unverified	0
Prompt Tuning for Generative Multimodal Pretrained Models	Aug 4, 2022	Image CaptioningVisual Entailment	CodeCode Available	0
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations	Jul 23, 2022	Decision MakingExplanation Generation	CodeCode Available	0
Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering	May 2, 2022	DecoderImage Captioning	—Unverified	0
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment	Mar 14, 2022	parameter-efficient fine-tuningQuestion Answering	—Unverified	0
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment	Mar 1, 2022	RetrievalSentence	—Unverified	0
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	Feb 7, 2022	Image Captioningimage-classification	CodeCode Available	0
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Logically at Factify 2022: Multimodal Fact Verification	Dec 16, 2021	BenchmarkingFact Checking	—Unverified	0
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation	Dec 10, 2021	Image-text matchingImage-text Retrieval	—Unverified	0
How Much Can CLIP Benefit Vision-and-Language Tasks?	Sep 29, 2021	Question AnsweringVisual Entailment	—Unverified	0
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.