Common Sense Reasoning

Common sense reasoning tasks are intended to require the model to go beyond pattern recognition. Instead, the model should use "common sense" or world knowledge to make inferences.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 939 papers

Title	Date	Tasks	Status
A Knowledge-Aware Sequence-to-Tree Network for Math Word Problem Solving	Nov 1, 2020	Common Sense ReasoningDecoder	—Unverified
Representation, Learning and Reasoning on Spatial Language for Downstream NLP Tasks	Nov 1, 2020	Common Sense ReasoningQuestion Answering	—Unverified
Machine Reasoning: Technology, Dilemma and Future	Nov 1, 2020	Common Sense Reasoning	—Unverified
Learning Physical Common Sense as Knowledge Graph Completion via BERT Data Augmentation and Constrained Tucker Factorization	Nov 1, 2020	Common Sense ReasoningData Augmentation	—Unverified
Dutch Humor Detection by Generating Negative Examples	Oct 26, 2020	Binary ClassificationCommon Sense Reasoning	—Unverified
GO FIGURE: A Meta Evaluation of Factuality in Summarization	Oct 24, 2020	Common Sense ReasoningDiagnostic	—Unverified
Thinking Fast and Slow in AI	Oct 12, 2020	Common Sense ReasoningDecision Making	—Unverified
Do Language Embeddings Capture Scales?	Oct 11, 2020	Common Sense Reasoning	—Unverified
Hierarchical Relational Inference	Oct 7, 2020	Common Sense Reasoning	—Unverified
Creative Captioning: An AI Grand Challenge Based on the Dixit Board Game	Sep 30, 2020	Common Sense Reasoning	—Unverified
Zero-Shot Learning with Common Sense Knowledge Graphs	Sep 28, 2020	Common Sense ReasoningEntity Typing	—Unverified
Multi-modal Cooking Workflow Construction for Food Recipes	Aug 20, 2020	Common Sense ReasoningDecoder	—Unverified
Commonsense Knowledge in Wikidata	Aug 18, 2020	Common Sense ReasoningQuestion Answering	—Unverified
Learning Object Placement by Inpainting for Compositional Data Augmentation	Aug 1, 2020	Common Sense ReasoningData Augmentation	—Unverified
CS-NET at SemEval-2020 Task 4: Siamese BERT for ComVE	Jul 21, 2020	Common Sense Reasoning	CodeCode Available
Understanding Spatial Relations through Multiple Modalities	Jul 19, 2020	Common Sense ReasoningImplicit Relations	—Unverified
Pasadena: Perceptually Aware and Stealthy Adversarial Denoise Attack	Jul 14, 2020	Adversarial AttackCommon Sense Reasoning	—Unverified
Robustness to Spurious Correlations via Human Annotations	Jul 13, 2020	Common Sense Reasoning	CodeCode Available
Explainable Inference on Sequential Data via Memory-Tracking	Jul 11, 2020	Cloze TestCommon Sense Reasoning	CodeCode Available
LMVE at SemEval-2020 Task 4: Commonsense Validation and Explanation using Pretraining Language Model	Jul 6, 2020	Common Sense ReasoningLanguage Modeling	—Unverified
Machine Common Sense	Jun 15, 2020	Common Sense ReasoningFormal Logic	—Unverified
CUHK at SemEval-2020 Task 4: CommonSense Explanation, Reasoning and Prediction with Multi-task Learning	Jun 12, 2020	Common Sense ReasoningERP	—Unverified
Consolidating Commonsense Knowledge	Jun 10, 2020	Common Sense ReasoningKnowledge Graphs	—Unverified
Language Models as Fact Checkers?	Jun 7, 2020	Common Sense ReasoningLanguage Modeling	—Unverified
Analogical Proportions	Jun 4, 2020	Common Sense ReasoningLanguage Acquisition	—Unverified

Show:10 25 50

← PrevPage 27 of 38Next →

All datasets WinoGrande arc_challenge arc_easy ReCoRD CommonsenseQA PARus RuCoS RWSD BIG-bench (Causal Judgment)BIG-bench (Date Understanding)BIG-bench (Disambiguation QA)BIG-bench (Sports Understanding)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	96.1	—	Unverified
2	Unicorn 11B (fine-tuned)	Accuracy	91.3	—	Unverified
3	CompassMTL 567M with Tailor	Accuracy	90.5	—	Unverified
4	CompassMTL 567M	Accuracy	89.6	—	Unverified
5	UnifiedQA 11B (fine-tuned)	Accuracy	89.4	—	Unverified
6	Claude 3 Opus (5-shot)	Accuracy	88.5	—	Unverified
7	GPT-4 (5-shot)	Accuracy	87.5	—	Unverified
8	ExDeBERTa 567M	Accuracy	87	—	Unverified
9	LLaMA-2 13B + MixLoRA	Accuracy	86.3	—	Unverified
10	LLaMA3 8B+MoSLoRA	Accuracy	85.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (few-shot, k=25)	Accuracy	96.4	—	Unverified
2	PaLM 2 (few-shot, CoT, SC)	Accuracy	95.1	—	Unverified
3	Shivaay (4B, few-shot, k=8)	Accuracy	91.04	—	Unverified
4	StupidLLM	Accuracy	91.03	—	Unverified
5	Claude 2 (few-shot, k=5)	Accuracy	91	—	Unverified
6	Claude 1.3 (few-shot, k=5)	Accuracy	90	—	Unverified
7	PaLM 540B (Self Improvement, Self Consistency)	Accuracy	89.8	—	Unverified
8	PaLM 540B (Self Consistency)	Accuracy	88.7	—	Unverified
9	PaLM 540B (Self Improvement, CoT Prompting)	Accuracy	88.3	—	Unverified
10	PaLM 540B (Self Improvement, Standard-Prompting)	Accuracy	87.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ST-MoE-32B 269B (fine-tuned)	Accuracy	95.2	—	Unverified
2	LLaMA 3 8B+MoSLoRA (fine-tuned)	Accuracy	90.5	—	Unverified
3	PaLM 2-L (1-shot)	Accuracy	89.7	—	Unverified
4	PaLM 2-M (1-shot)	Accuracy	88	—	Unverified
5	LLaMA-3 8B + MixLoRA	Accuracy	86.5	—	Unverified
6	Camelidae-8×34B	Accuracy	86.2	—	Unverified
7	PaLM 2-S (1-shot)	Accuracy	85.6	—	Unverified
8	LLaMA 65B + CFG (0-shot)	Accuracy	84.2	—	Unverified
9	GAL 120B (0-shot)	Accuracy	83.8	—	Unverified
10	LLaMA-2 13B + MixLoRA	Accuracy	83.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Turing NLR v5 XXL 5.4B (fine-tuned)	EM	95.9	—	Unverified
2	ST-MoE-32B 269B (fine-tuned)	EM	95.1	—	Unverified
3	T5-11B	F1	94.1	—	Unverified
4	DeBERTa-1.5B	EM	94.1	—	Unverified
5	PaLM 540B (finetuned)	EM	94	—	Unverified
6	Vega v2 6B (fine-tuned)	EM	93.9	—	Unverified
7	PaLM 2-L (one-shot)	F1	93.8	—	Unverified
8	T5-XXL 11B (fine-tuned)	EM	93.4	—	Unverified
9	PaLM 2-M (one-shot)	F1	92.4	—	Unverified
10	PaLM 2-S (one-shot)	F1	92.1	—	Unverified