SOTAVerified|Agents Browse Leaderboard About

Visual Entailment

Visual Entailment (VE) - is a task consisting of image-sentence pairs whereby a premise is defined by an image, rather than a natural language sentence as in traditional Textual Entailment tasks. The goal is to predict whether the image semantically entails the text.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 56 papers

Title	Date	Tasks	Status	Hype
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment	Aug 29, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
CoCa: Contrastive Captioners are Image-Text Foundation Models	May 4, 2022	Action ClassificationDecoder	CodeCode Available	1
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization	Dec 19, 2024	Contrastive LearningDecision Making	CodeCode Available	1
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning	Dec 15, 2023	Factual Inconsistency Detection in Chart CaptioningImage Captioning	CodeCode Available	1
Check It Again: Progressive Visual Question Answering via Visual Entailment	Jun 8, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1
Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation	Jun 11, 2024	Grounded Multimodal Named Entity Recognitionnamed-entity-recognition	CodeCode Available	1
Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift	Dec 15, 2022	BenchmarkingImage Captioning	CodeCode Available	1
Fine-Grained Visual Entailment	Mar 29, 2022	Multimodal ReasoningVisual Entailment	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 6Next →

No leaderboard results yet.