Visual Commonsense Reasoning

Image source: Visual Commonsense Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 65 papers

Title	Date	Tasks	Status	Score
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts	Dec 1, 2023	Visual Commonsense ReasoningVisual Prompting	CodeCode Available	5
VASR: Visual Analogies of Situation Recognition	Dec 8, 2022	Common Sense ReasoningTriplet	CodeCode Available	5
Heterogeneous Graph Learning for Visual Commonsense Reasoning	Oct 25, 2019	Graph LearningVisual Commonsense Reasoning	CodeCode Available	5
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor	Dec 8, 2024	MisconceptionsMultiple-choice	CodeCode Available	5
ILLUME: Rationalizing Vision-Language Models through Human Interactions	Aug 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	5
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines	Oct 31, 2019	AttributeQuestion Answering	CodeCode Available	5
TAB-VCR: Tags and Attributes based VCR Baselines	Dec 1, 2019	AttributeQuestion Answering	CodeCode Available	5
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified	0
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified	0
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images	Mar 13, 2023	Common Sense ReasoningExplanation Generation	—Unverified	0
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified	0
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?	Jun 11, 2024	Adversarial TextImage Generation	—Unverified	0
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning	May 26, 2023	Object RecognitionVisual Commonsense Reasoning	—Unverified	0
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified	0
Enforcing Reasoning in Visual Commonsense Reasoning	Oct 21, 2019	Question AnsweringReinforcement Learning	—Unverified	0
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning	Apr 22, 2024	Visual Commonsense Reasoning	—Unverified	0
Fusion of Detected Objects in Text for Visual Question Answering	Aug 14, 2019	Question AnsweringVisual Commonsense Reasoning	—Unverified	0
Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing	Jan 15, 2025	Visual Commonsense Reasoning	—Unverified	0
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified	0
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified	0
Improving Vision-and-Language Reasoning via Spatial Relations Modeling	Nov 9, 2023	Position regressionRelation	—Unverified	0
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining	Mar 30, 2020	Image RetrievalImage-text matching	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.