Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 939 papers

Title	Date	Tasks	Status	Hype
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available	0
PredictaBoard: Benchmarking LLM Score Predictability	Feb 20, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	0
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning	Feb 19, 2025	Common Sense ReasoningMathematical Problem-Solving	—Unverified	0
Tell Me Why: Incentivizing Explanations	Feb 19, 2025	Common Sense Reasoning	—Unverified	0
Vision-Based Generic Potential Function for Policy Alignment in Multi-Agent Reinforcement Learning	Feb 19, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment	Feb 17, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments	Feb 14, 2025	Common Sense Reasoning	—Unverified	0
Elucidation of the Concept of Consciousness from the Theory of Non-Human Communication Agents	Feb 5, 2025	Common Sense ReasoningPhilosophy	—Unverified	0
Large Language Models as Common-Sense Heuristics	Jan 31, 2025	Common Sense Reasoning	—Unverified	0
MACI: Multi-Agent Collaborative Intelligence for Adaptive Reasoning and Temporal Planning	Jan 28, 2025	Common Sense ReasoningManagement	—Unverified	0
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding	Jan 27, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection	Jan 26, 2025	Common Sense Reasoningcounterfactual	—Unverified	0
Towards A Litmus Test for Common Sense	Jan 17, 2025	ARCCommon Sense Reasoning	—Unverified	0
A note on bequest preferences in utility maximisation for modern tontines	Jan 15, 2025	Common Sense Reasoning	—Unverified	0
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified	0
Common Sense Is All You Need	Jan 11, 2025	AllARC	—Unverified	0
MSWA: Refining Local Attention with Multi-ScaleWindow Attention	Jan 2, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement	Jan 1, 2025	3D geometryCommon Sense Reasoning	—Unverified	0
DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery	Jan 1, 2025	Common Sense ReasoningDensity Estimation	—Unverified	0
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified	0
Titans: Learning to Memorize at Test Time	Dec 31, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	0
Embodied Image Quality Assessment for Robotic Intelligence	Dec 25, 2024	Common Sense ReasoningImage Quality Assessment	CodeCode Available	0
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks	Dec 24, 2024	Common Sense ReasoningTransfer Learning	—Unverified	0
Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples	Dec 23, 2024	Common Sense ReasoningTask Planning	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 38Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified