Visual Commonsense Reasoning

Image source: Visual Commonsense Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 65 papers

Title	Date	Tasks	Status
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?	Jun 11, 2024	Adversarial TextImage Generation	—Unverified
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning	May 26, 2023	Object RecognitionVisual Commonsense Reasoning	—Unverified
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified
Enforcing Reasoning in Visual Commonsense Reasoning	Oct 21, 2019	Question AnsweringReinforcement Learning	—Unverified
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning	Apr 22, 2024	Visual Commonsense Reasoning	—Unverified
Fusion of Detected Objects in Text for Visual Question Answering	Aug 14, 2019	Question AnsweringVisual Commonsense Reasoning	—Unverified
Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing	Jan 15, 2025	Visual Commonsense Reasoning	—Unverified
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
Improving Vision-and-Language Reasoning via Spatial Relations Modeling	Nov 9, 2023	Position regressionRelation	—Unverified
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining	Mar 30, 2020	Image RetrievalImage-text matching	—Unverified
KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense Reasoning	Dec 13, 2020	SentenceVisual Commonsense Reasoning	—Unverified
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound	Jan 7, 2022	Action ClassificationNavigate	—Unverified
ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition	Jun 9, 2024	Action RecognitionObject Recognition	—Unverified
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization	May 24, 2022	DescriptiveImage Captioning	—Unverified
Playing Lottery Tickets with Vision and Language	Apr 23, 2021	Image-text RetrievalQuestion Answering	—Unverified
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues	May 15, 2021	Multimodal ReasoningNatural Language Inference	—Unverified
Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning	Jan 30, 2023	Language ModelingLanguage Modelling	—Unverified
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning	Dec 16, 2021	Visual Commonsense Reasoning	—Unverified
Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce Data Annotation Required in Visual Commonsense Tasks	Apr 25, 2022	Few-Shot LearningIn-Context Learning	—Unverified
To Root Artificial Intelligence Deeply in Basic Science for a New Generation of AI	Sep 11, 2020	Brain Computer InterfaceDecision Making	—Unverified
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training	Aug 16, 2019	Image-text matchingImage-text Retrieval	—Unverified
UNITER: Learning UNiversal Image-TExt Representations	Sep 25, 2019	Image-text matchingImage-text Retrieval	—Unverified
ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models	Oct 9, 2023	Image CaptioningVisual Commonsense Reasoning	—Unverified
VisualCOMET: Reasoning about the Dynamic Context of a Still Image	Apr 22, 2020	Visual Commonsense Reasoning	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.