Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–575 of 747 papers

Title	Date	Tasks	Status
Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained language models	May 25, 2023	Logical ReasoningWord Embeddings	—Unverified
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic	May 24, 2023	Logical ReasoningMath	CodeCode Available
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models	May 23, 2023	Logical ReasoningStrategyQA	—Unverified
Exploring Self-supervised Logic-enhanced Training for Large Language Models	May 23, 2023	In-Context LearningLogical Reasoning	CodeCode Available
Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs	May 23, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization	May 23, 2023	In-Context LearningLanguage Modeling	—Unverified
Teaching Probabilistic Logical Reasoning to Transformers	May 22, 2023	Logical ReasoningQuestion Answering	CodeCode Available
Atomic Inference for NLI with Generated Facts as Atoms	May 22, 2023	Logical ReasoningNatural Language Inference	CodeCode Available
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
A Simple Generative Model of Logical Reasoning and Statistical Learning	May 18, 2023	Bayesian InferenceFormal Logic	—Unverified
Knowledge Authoring for Rules and Actions	May 12, 2023	Logical Reasoning	—Unverified
Scalable Coupling of Deep Learning with Logical Reasoning	May 12, 2023	Deep LearningLogical Reasoning	CodeCode Available
Tackling Universal Properties of Minimal Trap Spaces of Boolean Networks	May 3, 2023	Logical Reasoning	CodeCode Available
A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text	May 3, 2023	Image RetrievalLogical Reasoning	CodeCode Available
The Dark Side of Explanations: Poisoning Recommender Systems with Counterfactual Examples	Apr 30, 2023	counterfactualCounterfactual Explanation	—Unverified
Sequential Recommendation with Probabilistic Logical Reasoning	Apr 22, 2023	Logical ReasoningSequential Recommendation	CodeCode Available
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT	Apr 21, 2023	DeciphermentLogical Reasoning	—Unverified
LeafAI: query generator for clinical cohort discovery rivaling a human programmer	Apr 13, 2023	Logical Reasoningnamed-entity-recognition	—Unverified
Scallop: A Language for Neurosymbolic Programming	Apr 10, 2023	Logical ReasoningNegation	—Unverified
Deep Manifold Learning for Reading Comprehension and Logical Reasoning Tasks with Polytuplet Loss	Apr 3, 2023	Logical ReasoningReading Comprehension	CodeCode Available
BloombergGPT: A Large Language Model for Finance	Mar 30, 2023	Causal JudgmentCommon Sense Reasoning	—Unverified
Logical Reasoning over Natural Language as Knowledge Representation: A Survey	Mar 21, 2023	Logical ReasoningSurvey	CodeCode Available
Weakly Supervised Knowledge Transfer with Probabilistic Logical Reasoning for Object Detection	Mar 9, 2023	AllLogical Reasoning	CodeCode Available
Attribution-Scores and Causal Counterfactuals as Explanations in Artificial Intelligence	Mar 6, 2023	Logical ReasoningManagement	—Unverified
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT	Feb 18, 2023	Graph LearningLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 23 of 30Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified