Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 939 papers

Title	Date	Tasks	Status	Hype
Qwen2.5 Technical Report	Dec 19, 2024	Common Sense Reasoning	CodeCode Available	13
LLaMA: Open and Efficient Foundation Language Models	Feb 27, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	7
Mamba: Linear-Time Sequence Modeling with Selective State Spaces	Dec 1, 2023	2D Pose EstimationCommon Sense Reasoning	CodeCode Available	6
GPT-4 Technical Report	Mar 15, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration	Jun 1, 2023	Autonomous DrivingCloud Computing	CodeCode Available	6
Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling	Apr 3, 2023	Common Sense ReasoningCoreference Resolution	CodeCode Available	6
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models	Jan 28, 2022	Common Sense ReasoningGSM8K	CodeCode Available	6
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
Mistral 7B	Oct 10, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation	Mar 10, 2025	Common Sense ReasoningImage Generation	CodeCode Available	4
Mixtral of Experts	Jan 8, 2024	Code GenerationCommon Sense Reasoning	CodeCode Available	4
N-Grammer: Augmenting Transformers with latent n-grams	Jul 13, 2022	Common Sense ReasoningCoreference Resolution	CodeCode Available	4
SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot	Jan 2, 2023	Common Sense ReasoningLanguage Modelling	CodeCode Available	4
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models	Jun 9, 2022	Common Sense ReasoningMath	CodeCode Available	4
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models	Jun 4, 2024	Common Sense Reasoning	CodeCode Available	4
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning	Mar 18, 2025	3D Face AnimationCommon Sense Reasoning	CodeCode Available	4
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering	Feb 12, 2024	Common Sense ReasoningGraph Classification	CodeCode Available	4
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Gated Delta Networks: Improving Mamba2 with Delta Rule	Dec 9, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	4
Knowledge Fusion of Large Language Models	Jan 19, 2024	Code GenerationCommon Sense Reasoning	CodeCode Available	4
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts	Apr 22, 2024	Common Sense ReasoningGPU	CodeCode Available	3
ST-MoE: Designing Stable and Transferable Sparse Expert Models	Feb 17, 2022	ARCCommon Sense Reasoning	CodeCode Available	3
Language Models are Few-Shot Learners	May 28, 2020	answerability predictionArticles	CodeCode Available	3
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos	Nov 26, 2024	Common Sense ReasoningImitation Learning	CodeCode Available	3
Common Sense Reasoning for Deepfake Detection	Jan 31, 2024	Binary ClassificationCommon Sense Reasoning	CodeCode Available	3
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning	Mar 10, 2025	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	3
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	Oct 11, 2018	Citation Intent ClassificationCommon Sense Reasoning	CodeCode Available	3
Generative agent-based modeling with actions grounded in physical, social, or digital space using Concordia	Dec 6, 2023	Common Sense Reasoning	CodeCode Available	3
Finetuned Language Models Are Zero-Shot Learners	Sep 3, 2021	ARCCommon Sense Reasoning	CodeCode Available	3
Reasoning with Language Model Prompting: A Survey	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	3
OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models	Feb 16, 2024	Common Sense ReasoningNavigate	CodeCode Available	2
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving	Nov 9, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models	Jul 14, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2
Easy Problems That LLMs Get Wrong	May 30, 2024	Common Sense ReasoningLogical Reasoning	CodeCode Available	2
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models	Aug 25, 2023	Common Sense ReasoningComputational Efficiency	CodeCode Available	2
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks	Jan 5, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	2
DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models	Sep 28, 2023	10-shot image generation1 Image, 2*2 Stitchi	CodeCode Available	2
DeBERTa: Decoding-enhanced BERT with Disentangled Attention	Jun 5, 2020	Common Sense ReasoningCoreference Resolution	CodeCode Available	2
Deep Bidirectional Language-Knowledge Graph Pretraining	Oct 17, 2022	Common Sense ReasoningKnowledge Graphs	CodeCode Available	2
PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change	Jun 21, 2022	Common Sense ReasoningDiversity	CodeCode Available	2
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models	May 23, 2023	Common Sense ReasoningImage Generation	CodeCode Available	2
Large Language Models are Zero-Shot Reasoners	May 24, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	2
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model	Aug 2, 2022	Causal Language ModelingCommon Sense Reasoning	CodeCode Available	2
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations	Sep 26, 2019	Common Sense ReasoningGPU	CodeCode Available	2
LLM-FP4: 4-Bit Floating-Point Quantized Transformers	Oct 25, 2023	Common Sense ReasoningQuantization	CodeCode Available	2
LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions	Apr 27, 2023	Common Sense ReasoningCoreference Resolution	CodeCode Available	2
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest	Jul 7, 2023	AttributeCommon Sense Reasoning	CodeCode Available	2
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory	May 25, 2023	Common Sense ReasoningCPU	CodeCode Available	2
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	Oct 23, 2019	Answer GenerationCommon Sense Reasoning	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified