Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 939 papers

Title	Date	Tasks	Status	Hype
Declarative Reasoning on Explanations Using Constraint Logic Programming	Sep 1, 2023	Common Sense Reasoning	CodeCode Available	0
PointLLM: Empowering Large Language Models to Understand Point Clouds	Aug 31, 2023	3D Object Captioning3D Object Classification	CodeCode Available	2
Towards One-Shot Learning for Text Classification using Inductive Logic Programming	Aug 30, 2023	ClassificationCommon Sense Reasoning	CodeCode Available	0
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models	Aug 25, 2023	Common Sense ReasoningComputational Efficiency	CodeCode Available	2
CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized Images	Aug 23, 2023	Common Sense ReasoningDiversity	—Unverified	0
A Review on Objective-Driven Artificial Intelligence	Aug 20, 2023	Common Sense ReasoningSelf-Supervised Learning	—Unverified	0
Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning	Aug 17, 2023	Common Sense ReasoningOptical Character Recognition	—Unverified	0
Token-Scaled Logit Distillation for Ternary Weight Generative Language Models	Aug 13, 2023	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
KETM:A Knowledge-Enhanced Text Matching method	Aug 11, 2023	Common Sense ReasoningQuestion Answering	CodeCode Available	1
LLaMA-E: Empowering E-commerce Authoring with Object-Interleaved Instruction Following	Aug 9, 2023	Common Sense ReasoningInstruction Following	—Unverified	0
Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs	Aug 8, 2023	Board GamesCommon Sense Reasoning	—Unverified	0
Vocab-Expander: A System for Creating Domain-Specific Vocabularies Based on Word Embeddings	Aug 7, 2023	Common Sense ReasoningInformation Retrieval	—Unverified	0
dPASP: A Comprehensive Differentiable Probabilistic Answer Set Programming Environment For Neurosymbolic Learning and Reasoning	Aug 5, 2023	Common Sense Reasoning	—Unverified	0
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities	Jul 31, 2023	Common Sense Reasoning	—Unverified	0
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified	0
"Tidy Up the Table": Grounding Common-sense Objective for Tabletop Object Rearrangement	Jul 21, 2023	Common Sense ReasoningObject Rearrangement	—Unverified	0
Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model	Jul 19, 2023	Common Sense ReasoningGraph Attention	—Unverified	0
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models	Jul 14, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2
Retrieval Augmented Generation using Engineering Design Knowledge	Jul 13, 2023	Common Sense ReasoningEdge Classification	CodeCode Available	0
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0
Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models	Jul 11, 2023	Common Sense ReasoningDecision Making	—Unverified	0
Some Preliminary Steps Towards Metaverse Logic	Jul 10, 2023	AI AgentCommon Sense Reasoning	—Unverified	0
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest	Jul 7, 2023	AttributeCommon Sense Reasoning	CodeCode Available	2
Garbage in, garbage out: Zero-shot detection of crime using Large Language Models	Jul 4, 2023	Common Sense ReasoningLanguage Modeling	CodeCode Available	0
Stay on topic with Classifier-Free Guidance	Jun 30, 2023	Code GenerationCommon Sense Reasoning	—Unverified	0
REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction	Jun 27, 2023	Common Sense ReasoningLarge Language Model	CodeCode Available	1
Kernel Choice Matters for Boundary Inference Using Local Polynomial Density: With Application to Manipulation Testing	Jun 13, 2023	Common Sense Reasoning	—Unverified	0
Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations	Jun 5, 2023	Code GenerationCommon Sense Reasoning	CodeCode Available	0
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified	0
Being Right for Whose Right Reasons?	Jun 1, 2023	Common Sense ReasoningFairness	CodeCode Available	0
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration	Jun 1, 2023	Autonomous DrivingCloud Computing	CodeCode Available	6
Large Language Models Are Not Strong Abstract Reasoners	May 31, 2023	Common Sense ReasoningMemorization	CodeCode Available	1
What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models?	May 31, 2023	Common Sense ReasoningFew-Shot Learning	—Unverified	0
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning	May 31, 2023	Common Sense Reasoningcounterfactual	CodeCode Available	1
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory	May 25, 2023	Common Sense ReasoningCPU	CodeCode Available	2
MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched Contextualization	May 25, 2023	Common Sense Reasoning	CodeCode Available	0
ByteSized32: A Corpus and Challenge Task for Generating Task-Specific World Models Expressed as Text Games	May 24, 2023	Code GenerationCommon Sense Reasoning	CodeCode Available	1
Editing Common Sense in Transformers	May 24, 2023	Common Sense ReasoningModel Editing	CodeCode Available	0
ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories	May 24, 2023	Common Sense Reasoning	CodeCode Available	1
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models	May 23, 2023	Common Sense ReasoningImage Generation	CodeCode Available	2
The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning	May 23, 2023	Common Sense ReasoningCommon Sense Reasoning (Zero-Shot)	CodeCode Available	2
Augmenting Autotelic Agents with Large Language Models	May 21, 2023	Common Sense ReasoningLanguage Modeling	—Unverified	0
PlugMed: Improving Specificity in Patient-Centered Medical Dialogue Generation using In-Context Learning	May 19, 2023	Common Sense ReasoningDiagnostic	—Unverified	0
Reasoning Implicit Sentiment with Chain-of-Thought Prompting	May 18, 2023	Common Sense ReasoningSentiment Analysis	CodeCode Available	1
PaLM 2 Technical Report	May 17, 2023	Code GenerationCommon Sense Reasoning	CodeCode Available	0
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation	May 16, 2023	Common Sense ReasoningDenoising	CodeCode Available	1
Translating SUMO-K to Higher-Order Set Theory	May 13, 2023	Automated Theorem ProvingCommon Sense Reasoning	—Unverified	0
Leveraging Large Language Models in Conversational Recommender Systems	May 13, 2023	Common Sense ReasoningDialogue Management	—Unverified	0
Exploiting Pseudo Image Captions for Multimodal Summarization	May 9, 2023	Common Sense ReasoningContrastive Learning	—Unverified	0

Show:10 25 50

← PrevPage 7 of 19Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified