Visual Commonsense Reasoning

Image source: Visual Commonsense Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 65 papers

Title	Date	Tasks	Status	Hype	Score
Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models	Jun 3, 2024	Image CaptioningLanguage Modelling	CodeCode Available	2	5
All in One: Exploring Unified Video-Language Pre-training	Mar 14, 2022	AllLanguage Modelling	CodeCode Available	2	5
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest	Jul 7, 2023	AttributeCommon Sense Reasoning	CodeCode Available	2	5
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering	Sep 20, 2022	Multimodal Deep LearningMultimodal Reasoning	CodeCode Available	2	5
A Survey on Interpretable Cross-modal Reasoning	Sep 5, 2023	Cross-Modal RetrievalDecision Making	CodeCode Available	1	5
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1	5
Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning	Jan 1, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
VL-BERT: Pre-training of Generic Visual-Linguistic Representations	Aug 22, 2019	Image-text matchingLanguage Modelling	CodeCode Available	1	5
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1	5
Towards artificial general intelligence via a multimodal foundation model	Oct 27, 2021	Image ClassificationReading Comprehension	CodeCode Available	1	5
UNITER: UNiversal Image-TExt Representation Learning	Sep 25, 2019	Image-text matchingImage-text Retrieval	CodeCode Available	1	5
MERLOT: Multimodal Neural Script Knowledge Models	Jun 4, 2021	Multimodal ReasoningVisual Commonsense Reasoning	CodeCode Available	1	5
Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning	Sep 14, 2021	Cultural Vocal Bursts Intensity PredictionVisual Commonsense Reasoning	CodeCode Available	1	5
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models	May 23, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks	Aug 6, 2019	Image RetrievalQuestion Answering	CodeCode Available	1	5
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs	Oct 15, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Improving Visual Commonsense in Language Models via Multiple Image Generation	Jun 19, 2024	Common Sense ReasoningImage Generation	CodeCode Available	1	5
Unifying Vision-and-Language Tasks via Text Generation	Feb 4, 2021	Conditional Text GenerationDecoder	CodeCode Available	1	5
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines	Oct 31, 2019	AttributeQuestion Answering	CodeCode Available	0	5
Connective Cognition Network for Directional Visual Commonsense Reasoning	Dec 1, 2019	SentenceVisual Commonsense Reasoning	CodeCode Available	0	5
Heterogeneous Graph Learning for Visual Commonsense Reasoning	Oct 25, 2019	Graph LearningVisual Commonsense Reasoning	CodeCode Available	0	5
Compositional Image-Text Matching and Retrieval by Grounding Entities	May 4, 2025	Image CaptioningImage-text matching	CodeCode Available	0	5
TAB-VCR: Tags and Attributes based VCR Baselines	Dec 1, 2019	AttributeQuestion Answering	CodeCode Available	0	5
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor	Dec 8, 2024	MisconceptionsMultiple-choice	CodeCode Available	0	5
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory	Jul 4, 2021	Question AnsweringScene Understanding	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.