Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 939 papers

Title	Date	Tasks	Status
FLIP Reasoning Challenge	Apr 16, 2025	Common Sense Reasoningimage-classification	CodeCode Available
Shrinkage Initialization for Smooth Learning of Neural Networks	Apr 12, 2025	Common Sense Reasoning	—Unverified
What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks	Apr 10, 2025	Common Sense ReasoningHellaSwag	CodeCode Available
JEPA4Rec: Learning Effective Language Representations for Sequential Recommendation via Joint Embedding Predictive Architecture	Apr 10, 2025	Common Sense ReasoningDescriptive	—Unverified
InstructionBench: An Instructional Video Understanding Benchmark	Apr 7, 2025	Common Sense ReasoningMultiple-choice	—Unverified
Proposition of Affordance-Driven Environment Recognition Framework Using Symbol Networks in Large Language Models	Apr 2, 2025	Common Sense Reasoning	—Unverified
DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism	Apr 1, 2025	Common Sense ReasoningComputational Efficiency	CodeCode Available
WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization	Mar 31, 2025	Common Sense ReasoningMemorization	—Unverified
Information Gain Is Not All You Need	Mar 28, 2025	AllCommon Sense Reasoning	CodeCode Available
GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection	Mar 26, 2025	Common Sense ReasoningObject	—Unverified
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks	Mar 24, 2025	Common Sense ReasoningPrediction	—Unverified
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes	Mar 22, 2025	Common Sense Reasoning	—Unverified
Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts	Mar 20, 2025	Common Sense ReasoningNatural Language Inference	CodeCode Available
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model	Mar 13, 2025	Common Sense ReasoningDenoising	—Unverified
Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark	Mar 13, 2025	Common Sense ReasoningImage Generation	—Unverified
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
The Box is in the Pen: Evaluating Commonsense Reasoning in Neural Machine Translation	Mar 5, 2025	Common Sense ReasoningMachine Translation	CodeCode Available
LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains	Mar 3, 2025	Common Sense ReasoningHallucination	—Unverified
Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation	Mar 3, 2025	Code GenerationCommon Sense Reasoning	—Unverified
Personalized Causal Graph Reasoning for LLMs: A Case Study on Dietary Recommendations	Feb 28, 2025	Common Sense Reasoningcounterfactual	—Unverified
FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response	Feb 25, 2025	Common Sense ReasoningDisaster Response	—Unverified
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?	Feb 24, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available
PredictaBoard: Benchmarking LLM Score Predictability	Feb 20, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning	Feb 19, 2025	Common Sense ReasoningMathematical Problem-Solving	—Unverified
Tell Me Why: Incentivizing Explanations	Feb 19, 2025	Common Sense Reasoning	—Unverified
Vision-Based Generic Potential Function for Policy Alignment in Multi-Agent Reinforcement Learning	Feb 19, 2025	Common Sense ReasoningLanguage Modeling	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment	Feb 17, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments	Feb 14, 2025	Common Sense Reasoning	—Unverified
Elucidation of the Concept of Consciousness from the Theory of Non-Human Communication Agents	Feb 5, 2025	Common Sense ReasoningPhilosophy	—Unverified
Large Language Models as Common-Sense Heuristics	Jan 31, 2025	Common Sense Reasoning	—Unverified
MACI: Multi-Agent Collaborative Intelligence for Adaptive Reasoning and Temporal Planning	Jan 28, 2025	Common Sense ReasoningManagement	—Unverified
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding	Jan 27, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection	Jan 26, 2025	Common Sense Reasoningcounterfactual	—Unverified
Towards A Litmus Test for Common Sense	Jan 17, 2025	ARCCommon Sense Reasoning	—Unverified
A note on bequest preferences in utility maximisation for modern tontines	Jan 15, 2025	Common Sense Reasoning	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
Common Sense Is All You Need	Jan 11, 2025	AllARC	—Unverified
MSWA: Refining Local Attention with Multi-ScaleWindow Attention	Jan 2, 2025	Common Sense ReasoningLanguage Modeling	—Unverified
DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery	Jan 1, 2025	Common Sense ReasoningDensity Estimation	—Unverified
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement	Jan 1, 2025	3D geometryCommon Sense Reasoning	—Unverified
Titans: Learning to Memorize at Test Time	Dec 31, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified
Embodied Image Quality Assessment for Robotic Intelligence	Dec 25, 2024	Common Sense ReasoningImage Quality Assessment	CodeCode Available
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks	Dec 24, 2024	Common Sense ReasoningTransfer Learning	—Unverified
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs	Dec 16, 2024	BenchmarkingCommon Sense Reasoning	CodeCode Available
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified
The Rosetta Paradox: Domain-Specific Performance Inversions in Large Language Models	Dec 9, 2024	Common Sense ReasoningSpecificity	—Unverified

Show:10 25 50

← PrevPage 5 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified