Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 939 papers

Title	Date	Tasks	Status
Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning	Dec 3, 2024	Common Sense Reasoning	—Unverified
Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation	Mar 21, 2024	Common Sense ReasoningLanguage Modeling	—Unverified
Leveraging Large Language Models in Conversational Recommender Systems	May 13, 2023	Common Sense ReasoningDialogue Management	—Unverified
Lexically-constrained Text Generation through Commonsense Knowledge Extraction and Injection	Dec 19, 2020	Common Sense ReasoningConditional Text Generation	—Unverified
Linguistic Embeddings as a Common-Sense Knowledge Repository: Challenges and Opportunities	Sep 25, 2019	Common Sense ReasoningMachine Translation	—Unverified
LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following	Aug 9, 2023	Common Sense ReasoningInstruction Following	—Unverified
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning	Dec 30, 2023	Autonomous DrivingCommon Sense Reasoning	—Unverified
LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition	Oct 2, 2024	Common Sense ReasoningInductive logic programming	—Unverified
LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions	Jun 13, 2024	Common Sense Reasoning	—Unverified
LLM-enhanced Scene Graph Learning for Household Rearrangement	Aug 22, 2024	Common Sense ReasoningGraph Learning	—Unverified
LLMs for Relational Reasoning: How Far are We?	Jan 17, 2024	Common Sense ReasoningDecision Making	—Unverified
LMPriors: Pre-Trained Language Models as Task-Specific Priors	Oct 22, 2022	Causal InferenceCommon Sense Reasoning	—Unverified
LMVE at SemEval-2020 Task 4: Commonsense Validation and Explanation using Pretraining Language Model	Jul 6, 2020	Common Sense ReasoningLanguage Modeling	—Unverified
LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge	Mar 18, 2024	Common Sense Reasoning	—Unverified
LUKE-Graph: A Transformer-based Approach with Gated Relational Graph Attention for Cloze-style Reading Comprehension	Mar 12, 2023	Common Sense ReasoningGraph Attention	—Unverified
Machine Common Sense	Jun 15, 2020	Common Sense ReasoningFormal Logic	—Unverified
Machine Common Sense Concept Paper	Oct 17, 2018	Common Sense Reasoning	—Unverified
Machine Reasoning: Technology, Dilemma and Future	Nov 1, 2020	Common Sense Reasoning	—Unverified
MACI: Multi-Agent Collaborative Intelligence for Adaptive Reasoning and Temporal Planning	Jan 28, 2025	Common Sense ReasoningManagement	—Unverified
MALT: Improving Reasoning with Multi-Agent LLM Training	Dec 2, 2024	Common Sense ReasoningGSM8K	—Unverified
Mandarinograd: A Chinese Collection of Winograd Schemas	May 1, 2020	Common Sense ReasoningNatural Language Inference	—Unverified
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation	Dec 24, 2023	Common Sense ReasoningLanguage Modeling	—Unverified
Markov Chains for Robust Graph-Based Commonsense Information Extraction	Dec 1, 2012	Common Sense Reasoning	—Unverified
Mathematics, word problems, common sense, and artificial intelligence	Jan 23, 2023	Common Sense Reasoning	—Unverified
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans	Jun 6, 2024	Common Sense ReasoningNatural Language Understanding	—Unverified
Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children	Sep 11, 2015	Common Sense ReasoningQuestion Answering	—Unverified
Measuring Numerical Common Sense: Is A Word Embedding Approach Effective?	Sep 25, 2019	Common Sense Reasoningregression	—Unverified
Median DC for Sign Recovery: Privacy can be Achieved by Deterministic Algorithms	Jan 1, 2021	Common Sense ReasoningPrivacy Preserving	—Unverified
MERALI at SemEval-2017 Task 2 Subtask 1: a Cognitively Inspired approach	Aug 1, 2017	Common Sense ReasoningTask 2	—Unverified
Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills	May 18, 2024	Collision AvoidanceCommon Sense Reasoning	—Unverified
Mind meets machine: Unravelling GPT-4's cognitive psychology	Mar 20, 2023	Common Sense ReasoningDecision Making	—Unverified
Minimally Naturalistic Artificial Intelligence	Jan 14, 2017	Common Sense ReasoningInductive Bias	—Unverified
Mise en Place: Unsupervised Interpretation of Instructional Recipes	Sep 1, 2015	Common Sense Reasoning	—Unverified
MIT-MEDG at SemEval-2018 Task 7: Semantic Relation Classification via Convolution Neural Network	Jun 1, 2018	ArticlesCommon Sense Reasoning	—Unverified
MITRE at SemEval-2018 Task 11: Commonsense Reasoning without Commonsense Knowledge	Jun 1, 2018	Common Sense ReasoningInformation Retrieval	—Unverified
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs	Jul 10, 2024	Common Sense ReasoningVision-Language-Action	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Modeling and Control of bittide Synchronization	Sep 29, 2021	Common Sense Reasoning	—Unverified
Modeling Semantic Expectation: Using Script Knowledge for Referent Prediction	Feb 10, 2017	Common Sense ReasoningPrediction	—Unverified
Modeling Semantics and Pragmatics of Spatial Prepositions via Hierarchical Common-Sense Primitives	Aug 1, 2021	Common Sense Reasoning	—Unverified
Modeling Sentiment Association in Discourse for Humor Recognition	Jul 1, 2018	Common Sense ReasoningSentiment Analysis	—Unverified
Modular Approach to Machine Reading Comprehension: Mixture of Task-Aware Experts	Oct 4, 2022	Common Sense ReasoningMachine Reading Comprehension	—Unverified
MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for Large Language Models	Feb 20, 2024	Common Sense ReasoningContrastive Learning	—Unverified
Most ``babies'' are ``little'' and most ``problems'' are ``huge'': Compositional Entailment in Adjective-Nouns	Aug 1, 2016	Common Sense ReasoningNatural Language Inference	—Unverified
MovieGraphs: Towards Understanding Human-Centric Situations from Videos	Dec 19, 2017	Common Sense Reasoning	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
MSWA: Refining Local Attention with Multi-ScaleWindow Attention	Jan 2, 2025	Common Sense ReasoningLanguage Modeling	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Multilingual Text Representation	Sep 2, 2023	Common Sense ReasoningNatural Language Understanding	—Unverified
Multi-modal Cooking Workflow Construction for Food Recipes	Aug 20, 2020	Common Sense ReasoningDecoder	—Unverified

Show:10 25 50

← PrevPage 14 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified