Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 939 papers

Title	Date	Tasks	Status
A Tool for Extracting Conversational Implicatures	May 1, 2012	Common Sense ReasoningImplicatures	—Unverified
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model	Mar 13, 2025	Common Sense ReasoningDenoising	—Unverified
Is a 204 cm Man Tall or Small ? Acquisition of Numerical Common Sense from the Web	Aug 1, 2013	Common Sense ReasoningNatural Language Inference	—Unverified
Identifying Restaurant Features via Sentiment Analysis on Yelp Reviews	Sep 20, 2017	Common Sense ReasoningSentiment Analysis	—Unverified
IIT (BHU): System Description for LSDSem'17 Shared Task	Apr 1, 2017	Cloze TestCommon Sense Reasoning	—Unverified
Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models	Nov 17, 2022	Common Sense Reasoning	—Unverified
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation	Oct 16, 2021	Common Sense ReasoningEmbodied Question Answering	—Unverified
Exploiting Proximity-Aware Tasks for Embodied Social Navigation	Dec 1, 2022	Common Sense ReasoningNavigate	—Unverified
CLaSP: Learning Concepts for Time-Series Signals from Natural Language Supervision	Nov 13, 2024	Common Sense ReasoningContrastive Learning	—Unverified
Implicit Sentiment Analysis Based on Chain of Thought Prompting	Aug 22, 2024	Common Sense ReasoningLanguage Modeling	—Unverified
Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection	Dec 13, 2021	Common Sense ReasoningKnowledge Graph Embeddings	—Unverified
Enhancing Cross-Modal Contextual Congruence for Crowdfunding Success using Knowledge-infused Learning	Feb 6, 2024	Common Sense ReasoningKnowledge Graphs	—Unverified
Improving Implicit Semantic Role Labeling by Predicting Semantic Frame Arguments	Apr 10, 2017	Common Sense ReasoningSemantic Role Labeling	—Unverified
Audit-LLM: Multi-Agent Collaboration for Log-based Insider Threat Detection	Aug 12, 2024	Common Sense ReasoningHallucination	—Unverified
Exploiting Pseudo Image Captions for Multimodal Summarization	May 9, 2023	Common Sense ReasoningContrastive Learning	—Unverified
Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G	Apr 29, 2024	Common Sense Reasoning	—Unverified
Improving Text-to-Pictograph Translation Through Word Sense Disambiguation	Aug 1, 2016	Common Sense ReasoningTranslation	—Unverified
Improving Tool Retrieval by Leveraging Large Language Models for Query Generation	Nov 17, 2024	Common Sense ReasoningIn-Context Learning	—Unverified
IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation	Oct 25, 2024	Common Sense ReasoningLanguage Modeling	—Unverified
Explanations for CommonsenseQA: New Dataset and Models	Aug 1, 2021	Common Sense ReasoningExplanation Generation	—Unverified
Incremental Fine-grained Information Status Classification Using Attention-based LSTMs	Dec 1, 2016	ClassificationCommon Sense Reasoning	—Unverified
Inducing Neural Models of Script Knowledge	Jun 1, 2014	Common Sense ReasoningQuestion Answering	—Unverified
A Review on Objective-Driven Artificial Intelligence	Aug 20, 2023	Common Sense ReasoningSelf-Supervised Learning	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier	May 1, 2018	Common Sense Reasoning	—Unverified

Show:10 25 50

← PrevPage 17 of 38Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified