Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 626–650 of 939 papers

Title	Date	Tasks	Status
A Bayesian-Symbolic Approach to Reasoning and Learning in Intuitive Physics	Dec 1, 2021	Bayesian InferenceBilevel Optimization	—Unverified
AbductionRules: Training Transformers to Explain Unexpected Inputs	Nov 16, 2021	Common Sense ReasoningLogical Reasoning	—Unverified
Abductive Reasoning as Self-Supervision for Common Sense Question Answering	Sep 6, 2019	Common Sense ReasoningDomain Adaptation	—Unverified
Active Model Estimation in Markov Decision Processes	Mar 6, 2020	Common Sense ReasoningEfficient Exploration	—Unverified
A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier	May 1, 2018	Common Sense Reasoning	—Unverified
Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval	Jul 15, 2024	Common Sense ReasoningHallucination	—Unverified
ADEPT: An Adjective-Dependent Plausibility Task	Aug 1, 2021	Common Sense ReasoningNatural Language Understanding	—Unverified
A design of human-like robust AI machines in object identification	Jan 7, 2021	Causal InferenceCommon Sense Reasoning	—Unverified
A Discourse-Annotated Corpus of Conjoined VPs	Aug 1, 2016	Common Sense ReasoningMachine Translation	—Unverified
Affective Common Sense Knowledge Acquisition for Sentiment Analysis	May 1, 2012	Common Sense ReasoningDecision Making	—Unverified
Affective Computing in the Era of Large Language Models: A Survey from the NLP Perspective	Jul 30, 2024	Common Sense ReasoningIn-Context Learning	—Unverified
Affordance Extraction and Inference based on Semantic Role Labeling	Sep 3, 2018	Common Sense ReasoningSemantic Role Labeling	—Unverified
A framework for mining lifestyle profiles through multi-dimensional and high-order mobility feature clustering	Dec 1, 2023	Common Sense ReasoningFeature Engineering	—Unverified
A Generalized Knowledge Hunting Framework for the Winograd Schema Challenge	Jun 1, 2018	Common Sense ReasoningCoreference Resolution	—Unverified
AgentSGEN: Multi-Agent LLM in the Loop for Semantic Collaboration and GENeration of Synthetic Data	May 7, 2025	Common Sense Reasoning	—Unverified
A Hierarchical Bayesian Model for Unsupervised Induction of Script Knowledge	Apr 1, 2014	Common Sense ReasoningQuestion Answering	—Unverified
A Hybrid Neural Network Model for Commonsense Reasoning	Jul 27, 2019	Common Sense ReasoningCoreference Resolution	—Unverified
AI and the Sense of Self	Jan 7, 2022	Common Sense ReasoningDecision Making	—Unverified
AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies	Jul 11, 2024	Common Sense Reasoning	—Unverified
A Knowledge-Aware Sequence-to-Tree Network for Math Word Problem Solving	Nov 1, 2020	Common Sense ReasoningDecoder	—Unverified
A Knowledge Hunting Framework for Common Sense Reasoning	Oct 2, 2018	Common Sense ReasoningCoreference Resolution	—Unverified
A Large Scale Database of Strongly-related Events in Japanese	May 1, 2014	Common Sense Reasoningcoreference-resolution	—Unverified
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation	May 22, 2025	Common Sense ReasoningInformation Retrieval	—Unverified
Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models	Aug 19, 2019	Common Sense ReasoningNatural Language Inference	—Unverified
A Logical Model for Supporting Social Commonsense Knowledge Acquisition	Dec 25, 2019	Common Sense Reasoning	—Unverified

Show:10 25 50

← PrevPage 26 of 38Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified