Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 939 papers

Title	Date	Tasks	Status	Hype
Comparing Apples to Oranges: A Dataset & Analysis of LLM Humour Understanding from Traditional Puns to Topical Jokes	Jul 17, 2025	Common Sense ReasoningWorld Knowledge	—Unverified	0
LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization	Jul 6, 2025	Common Sense Reasoningparameter-efficient fine-tuning	CodeCode Available	0
CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation	Jun 11, 2025	Common Sense ReasoningQuestion Answering	—Unverified	0
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits	Jun 11, 2025	Artifact DetectionCaption Generation	—Unverified	0
Prime the search: Using large language models for guiding geometric task and motion planning by warm-starting tree search	Jun 8, 2025	Common Sense ReasoningMotion Planning	CodeCode Available	0
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment	Jun 4, 2025	Common Sense Reasoning	CodeCode Available	0
ATLAS: Learning to Optimally Memorize the Context at Test Time	May 29, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
Spatial Knowledge Graph-Guided Multimodal Synthesis	May 28, 2025	Common Sense ReasoningKnowledge Graphs	—Unverified	0
CaseEdit: Enhancing Localized Commonsense Reasoning via Null-Space Constrained Knowledge Editing in Small Parameter Language Models	May 26, 2025	Common Sense ReasoningComputational Efficiency	—Unverified	0
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving	May 22, 2025	Autonomous DrivingCommon Sense Reasoning	—Unverified	0
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation	May 22, 2025	Common Sense ReasoningInformation Retrieval	—Unverified	0
OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation	May 20, 2025	Common Sense ReasoningMathematical Reasoning	—Unverified	0
3D Visual Illusion Depth Estimation	May 19, 2025	Common Sense ReasoningDepth Estimation	CodeCode Available	1
Empirically evaluating commonsense intelligence in large language models with large-scale human judgments	May 15, 2025	Common Sense Reasoning	—Unverified	0
ProdRev: A DNN framework for empowering customers using generative pre-trained transformers	May 14, 2025	Abstractive Text SummarizationCommon Sense Reasoning	—Unverified	0
Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images	May 12, 2025	Common Sense Reasoning	—Unverified	0
AgentSGEN: Multi-Agent LLM in the Loop for Semantic Collaboration and GENeration of Synthetic Data	May 7, 2025	Common Sense Reasoning	—Unverified	0
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation	May 5, 2025	Common Sense ReasoningScene Generation	—Unverified	0
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding	May 2, 2025	Anomaly DetectionCommon Sense Reasoning	CodeCode Available	1
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs	Apr 30, 2025	Common Sense ReasoningInstruction Following	—Unverified	0
ScanEdit: Hierarchically-Guided Functional 3D Scan Editing	Apr 21, 2025	3D scene EditingCommon Sense Reasoning	—Unverified	0
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning	Apr 18, 2025	Common Sense Reasoningimage-classification	CodeCode Available	1
Creating 'Full-Stack' Hybrid Reasoning Systems that Prioritize and Enhance Human Intelligence	Apr 18, 2025	Common Sense ReasoningIngenuity	—Unverified	0
FLIP Reasoning Challenge	Apr 16, 2025	Common Sense Reasoningimage-classification	CodeCode Available	0
Shrinkage Initialization for Smooth Learning of Neural Networks	Apr 12, 2025	Common Sense Reasoning	—Unverified	0
JEPA4Rec: Learning Effective Language Representations for Sequential Recommendation via Joint Embedding Predictive Architecture	Apr 10, 2025	Common Sense ReasoningDescriptive	—Unverified	0
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks	Apr 10, 2025	Common Sense ReasoningHellaSwag	CodeCode Available	0
InstructionBench: An Instructional Video Understanding Benchmark	Apr 7, 2025	Common Sense ReasoningMultiple-choice	—Unverified	0
Proposition of Affordance-Driven Environment Recognition Framework Using Symbol Networks in Large Language Models	Apr 2, 2025	Common Sense Reasoning	—Unverified	0
DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism	Apr 1, 2025	Common Sense ReasoningComputational Efficiency	CodeCode Available	0
WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization	Mar 31, 2025	Common Sense ReasoningMemorization	—Unverified	0
Information Gain Is Not All You Need	Mar 28, 2025	AllCommon Sense Reasoning	CodeCode Available	0
GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection	Mar 26, 2025	Common Sense ReasoningObject	—Unverified	0
Global-Local Tree Search in VLMs for 3D Indoor Scene Generation	Mar 24, 2025	Common Sense ReasoningObject	CodeCode Available	1
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks	Mar 24, 2025	Common Sense ReasoningPrediction	—Unverified	0
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes	Mar 22, 2025	Common Sense Reasoning	—Unverified	0
Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts	Mar 20, 2025	Common Sense ReasoningNatural Language Inference	CodeCode Available	0
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning	Mar 18, 2025	3D Face AnimationCommon Sense Reasoning	CodeCode Available	4
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark	Mar 13, 2025	Common Sense ReasoningImage Generation	—Unverified	0
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model	Mar 13, 2025	Common Sense ReasoningDenoising	—Unverified	0
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning	Mar 10, 2025	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	3
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation	Mar 10, 2025	Common Sense ReasoningImage Generation	CodeCode Available	4
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	0
The Box is in the Pen: Evaluating Commonsense Reasoning in Neural Machine Translation	Mar 5, 2025	Common Sense ReasoningMachine Translation	CodeCode Available	0
LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains	Mar 3, 2025	Common Sense ReasoningHallucination	—Unverified	0
Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation	Mar 3, 2025	Code GenerationCommon Sense Reasoning	—Unverified	0
Personalized Causal Graph Reasoning for LLMs: A Case Study on Dietary Recommendations	Feb 28, 2025	Common Sense Reasoningcounterfactual	—Unverified	0
FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response	Feb 25, 2025	Common Sense ReasoningDisaster Response	—Unverified	0
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?	Feb 24, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified