Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 939 papers

Title	Date	Tasks	Status	Hype
KnowZRel: Common Sense Knowledge-based Zero-Shot Relationship Retrieval for Generalised Scene Graph Generation	Feb 21, 2025	Common Sense ReasoningGraph Generation	CodeCode Available	0
PredictaBoard: Benchmarking LLM Score Predictability	Feb 20, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	0
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning	Feb 19, 2025	Common Sense ReasoningMathematical Problem-Solving	—Unverified	0
Vision-Based Generic Potential Function for Policy Alignment in Multi-Agent Reinforcement Learning	Feb 19, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
Tell Me Why: Incentivizing Explanations	Feb 19, 2025	Common Sense Reasoning	—Unverified	0
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment	Feb 17, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments	Feb 14, 2025	Common Sense Reasoning	—Unverified	0
Elucidation of the Concept of Consciousness from the Theory of Non-Human Communication Agents	Feb 5, 2025	Common Sense ReasoningPhilosophy	—Unverified	0
Large Language Models as Common-Sense Heuristics	Jan 31, 2025	Common Sense Reasoning	—Unverified	0
MACI: Multi-Agent Collaborative Intelligence for Adaptive Reasoning and Temporal Planning	Jan 28, 2025	Common Sense ReasoningManagement	—Unverified	0
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding	Jan 27, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection	Jan 26, 2025	Common Sense Reasoningcounterfactual	—Unverified	0
Towards A Litmus Test for Common Sense	Jan 17, 2025	ARCCommon Sense Reasoning	—Unverified	0
A note on bequest preferences in utility maximisation for modern tontines	Jan 15, 2025	Common Sense Reasoning	—Unverified	0
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified	0
Common Sense Is All You Need	Jan 11, 2025	AllARC	—Unverified	0
MSWA: Refining Local Attention with Multi-ScaleWindow Attention	Jan 2, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement	Jan 1, 2025	3D geometryCommon Sense Reasoning	—Unverified	0
DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery	Jan 1, 2025	Common Sense ReasoningDensity Estimation	—Unverified	0
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified	0
Titans: Learning to Memorize at Test Time	Dec 31, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	0
Embodied Image Quality Assessment for Robotic Intelligence	Dec 25, 2024	Common Sense ReasoningImage Quality Assessment	CodeCode Available	0
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks	Dec 24, 2024	Common Sense ReasoningTransfer Learning	—Unverified	0
Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples	Dec 23, 2024	Common Sense ReasoningTask Planning	CodeCode Available	1
Qwen2.5 Technical Report	Dec 19, 2024	Common Sense Reasoning	CodeCode Available	13
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs	Dec 16, 2024	BenchmarkingCommon Sense Reasoning	CodeCode Available	0
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified	0
The Rosetta Paradox: Domain-Specific Performance Inversions in Large Language Models	Dec 9, 2024	Common Sense ReasoningSpecificity	—Unverified	0
Gated Delta Networks: Improving Mamba2 with Delta Rule	Dec 9, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	4
A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions	Dec 7, 2024	ChatbotCommon Sense Reasoning	—Unverified	0
Rethinking Annotation for Object Detection: Is Annotating Small-size Instances Worth Its Cost?	Dec 7, 2024	Common Sense Reasoningobject-detection	—Unverified	0
A surprisal oracle for when every layer counts	Dec 4, 2024	Common Sense ReasoningLanguage Modeling	CodeCode Available	0
Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning	Dec 3, 2024	Common Sense Reasoning	—Unverified	0
MALT: Improving Reasoning with Multi-Agent LLM Training	Dec 2, 2024	Common Sense ReasoningGSM8K	—Unverified	0
Online Knowledge Integration for 3D Semantic Mapping: A Survey	Nov 27, 2024	Common Sense ReasoningKnowledge Graphs	—Unverified	0
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos	Nov 26, 2024	Common Sense ReasoningImitation Learning	CodeCode Available	3
HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator	Nov 26, 2024	Common Sense ReasoningLogical Reasoning	—Unverified	0
Generating Out-Of-Distribution Scenarios Using Language Models	Nov 25, 2024	Autonomous DrivingAutonomous Vehicles	—Unverified	0
Interactive and Expressive Code-Augmented Planning with Large Language Models	Nov 21, 2024	Common Sense ReasoningDecision Making	—Unverified	0
GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping	Nov 19, 2024	Common Sense ReasoningHuman-Object Interaction Detection	—Unverified	0
Improving Tool Retrieval by Leveraging Large Language Models for Query Generation	Nov 17, 2024	Common Sense ReasoningIn-Context Learning	—Unverified	0
Knowledge Bases in Support of Large Language Models for Processing Web News	Nov 13, 2024	Common Sense Reasoning	—Unverified	0
CLaSP: Learning Concepts for Time-Series Signals from Natural Language Supervision	Nov 13, 2024	Common Sense ReasoningContrastive Learning	—Unverified	0
A little less conversation, a little more action, please: Investigating the physical common-sense of LLMs in a 3D embodied environment	Oct 30, 2024	Common Sense ReasoningDeep Reinforcement Learning	CodeCode Available	0
Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model	Oct 29, 2024	Common Sense ReasoningNavigate	—Unverified	0
Language Agents Meet Causality -- Bridging LLMs and Causal World Models	Oct 25, 2024	Causal InferenceCommon Sense Reasoning	CodeCode Available	1
IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation	Oct 25, 2024	Common Sense ReasoningLanguage Modeling	—Unverified	0
From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems	Oct 24, 2024	BenchmarkingCommon Sense Reasoning	—Unverified	0
Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving	Oct 16, 2024	Autonomous DrivingCommon Sense Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified