Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 939 papers

Title	Date	Tasks	Status	Hype	Score
Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers	May 24, 2020	Common Sense ReasoningWorld Knowledge	CodeCode Available	1	5
Mention Flags (MF): Constraining Transformer-based Text Generators	Aug 1, 2021	Common Sense ReasoningDecoder	CodeCode Available	1	5
Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments	Apr 17, 2021	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5
OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning	May 9, 2024	Common Sense Reasoningnamed-entity-recognition	CodeCode Available	1	5
Generating similes effortlessly like a Pro: A Style Transfer Approach for Simile Generation	Sep 18, 2020	Common Sense ReasoningSentence	CodeCode Available	1	5
LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization	Jul 6, 2025	Common Sense Reasoningparameter-efficient fine-tuning	CodeCode Available	0	5
Being Right for Whose Right Reasons?	Jun 1, 2023	Common Sense ReasoningFairness	CodeCode Available	0	5
An Evaluation of PredPatt and Open IE via Stage 1 Semantic Role Labeling	Jan 1, 2017	Common Sense ReasoningOpen Information Extraction	CodeCode Available	0	5
A Content-Based Novelty Measure for Scholarly Publications: A Proof of Concept	Jan 8, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	0	5
BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense	Jun 7, 2024	Common Sense ReasoningSentence	CodeCode Available	0	5
A Neural Conversational Model	Jun 19, 2015	Common Sense Reasoningmodel	CodeCode Available	0	5
Learning Emphasis Selection for Written Text in Visual Media from Crowd-Sourced Label Distributions	Jul 1, 2019	Common Sense Reasoningvalid	CodeCode Available	0	5
Learning Low-Level Causal Relations using a Simulated Robotic Arm	Oct 10, 2024	Common Sense ReasoningDimensionality Reduction	CodeCode Available	0	5
A Group-Specific Approach to NLP for Hate Speech Detection	Apr 21, 2023	Common Sense ReasoningEthics	CodeCode Available	0	5
Learn How to Cook a New Recipe in a New House: Using Map Familiarization, Curriculum Learning, and Bandit Feedback to Learn Families of Text-Based Adventure Games	Aug 13, 2019	Common Sense ReasoningQ-Learning	CodeCode Available	0	5
Learning structure-aware semantic segmentation with image-level supervision	Apr 15, 2021	Boundary DetectionCommon Sense Reasoning	CodeCode Available	0	5
Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation	Mar 27, 2024	Common Sense ReasoningWorld Knowledge	CodeCode Available	0	5
An Analysis of Dataset Overlap on Winograd-Style Tasks	Nov 9, 2020	Common Sense Reasoning	CodeCode Available	0	5
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	0	5
Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations	Jun 5, 2023	Code GenerationCommon Sense Reasoning	CodeCode Available	0	5
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available	0	5
KC-ISA: An Implicit Sentiment Analysis Model Combining Knowledge Enhancement and Context Features	Oct 1, 2022	Common Sense ReasoningSentiment Analysis	CodeCode Available	0	5
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment	Jun 4, 2025	Common Sense Reasoning	CodeCode Available	0	5
“It doesn’t look good for a date”: Transforming Critiques into Preferences for Conversational Recommendation Systems	Nov 1, 2021	Common Sense ReasoningConversational Recommendation	CodeCode Available	0	5
Leveraging QA Datasets to Improve Generative Data Augmentation	May 25, 2022	Common Sense ReasoningData Augmentation	CodeCode Available	0	5

Show:10 25 50

← PrevPage 8 of 38Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified