Visual Commonsense Reasoning

Image source: Visual Commonsense Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 65 papers

Title	Date	Tasks	Status
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning	Apr 22, 2024	Visual Commonsense Reasoning	—Unverified
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts	Dec 1, 2023	Visual Commonsense ReasoningVisual Prompting	CodeCode Available
Improving Vision-and-Language Reasoning via Spatial Relations Modeling	Nov 9, 2023	Position regressionRelation	—Unverified
ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models	Oct 9, 2023	Image CaptioningVisual Commonsense Reasoning	—Unverified
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning	May 26, 2023	Object RecognitionVisual Commonsense Reasoning	—Unverified
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified
CAVL: Learning Contrastive and Adaptive Representations of Vision and Language	Apr 10, 2023	Image RetrievalPhrase Grounding	—Unverified
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images	Mar 13, 2023	Common Sense ReasoningExplanation Generation	—Unverified
Learning to Agree on Vision Attention for Visual Commonsense Reasoning	Feb 4, 2023	Visual Commonsense ReasoningVisual Reasoning	—Unverified
Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning	Jan 30, 2023	Language ModelingLanguage Modelling	—Unverified
VASR: Visual Analogies of Situation Recognition	Dec 8, 2022	Common Sense ReasoningTriplet	CodeCode Available
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
ILLUME: Rationalizing Vision-Language Models through Human Interactions	Aug 17, 2022	Image CaptioningQuestion Answering	CodeCode Available
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization	May 24, 2022	DescriptiveImage Captioning	—Unverified
Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce Data Annotation Required in Visual Commonsense Tasks	Apr 25, 2022	Few-Shot LearningIn-Context Learning	—Unverified
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks	Apr 22, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
Attention Mechanism based Cognition-level Scene Understanding	Apr 17, 2022	Question AnsweringScene Understanding	—Unverified
VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers	Mar 30, 2022	Question AnsweringVisual Commonsense Reasoning	CodeCode Available
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks	Jan 15, 2022	Question AnsweringVisual Commonsense Reasoning	—Unverified
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound	Jan 7, 2022	Action ClassificationNavigate	—Unverified
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning	Dec 16, 2021	Visual Commonsense Reasoning	—Unverified
Interpretable Visual Understanding with Cognitive Attention Network	Aug 6, 2021	Scene UnderstandingVisual Commonsense Reasoning	CodeCode Available
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory	Jul 4, 2021	Question AnsweringScene Understanding	CodeCode Available
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues	May 15, 2021	Multimodal ReasoningNatural Language Inference	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.