Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 118 papers

Title	Date	Tasks	Status	Hype
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified	0
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations	Aug 13, 2024	dialog state trackingDialogue State Tracking	—Unverified	0
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified	0
Hawk: Learning to Understand Open-World Video Anomalies	May 27, 2024	Anomaly DetectionQuestion Answering	CodeCode Available	3
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
FlexCap: Describe Anything in Images in Controllable Detail	Mar 18, 2024	AttributeDense Captioning	—Unverified	0
VD-GR: Boosting Visual Dialog with Cascaded Spatial-Temporal Multi-Modal GRaphs	Oct 25, 2023	Visual Dialog	—Unverified	0
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available	0
Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations	Aug 30, 2023	Explanation GenerationQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 1 of 12Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified