Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 747 papers

Title	Date	Tasks	Status	Hype
Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples	Nov 22, 2021	Knowledge GraphsLanguage Modeling	CodeCode Available	1
Counterfactual reasoning: Testing language models' understanding of hypothetical scenarios	May 26, 2023	counterfactualCounterfactual Reasoning	CodeCode Available	1
Improving Large Language Models in Event Relation Logical Prediction	Oct 13, 2023	counterfactualEvent Relation Extraction	CodeCode Available	1
Conditional and Modal Reasoning in Large Language Models	Jan 30, 2024	Logical Reasoning	CodeCode Available	1
Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation	May 27, 2025	Large Language ModelLogical Reasoning	CodeCode Available	1
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models	Sep 6, 2023	General KnowledgeLogical Reasoning	CodeCode Available	1
AdaLoGN: Adaptive Logic Graph Network for Reasoning-Based Machine Reading Comprehension	Mar 16, 2022	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation	Dec 24, 2024	Graph Question AnsweringHallucination	CodeCode Available	1
Complex Logical Reasoning over Knowledge Graphs using Large Language Models	May 2, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available	1
GLoRE: Evaluating Logical Reasoning of Large Language Models	Oct 13, 2023	Logical ReasoningNatural Language Understanding	CodeCode Available	1
COLLIE: Systematic Construction of Constrained Text Generation Tasks	Jul 17, 2023	Logical ReasoningSentence	CodeCode Available	1
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy	Oct 28, 2023	Logical Reasoning	CodeCode Available	1
From LSAT: The Progress and Challenges of Complex Reasoning	Aug 2, 2021	Few-Shot LearningLogical Reasoning	CodeCode Available	1
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models	Oct 7, 2024	GSM8KLogical Reasoning	CodeCode Available	1
LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning	Jul 16, 2020	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs	May 18, 2025	Logical Reasoning	CodeCode Available	1
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression	Dec 4, 2024	2kLogical Reasoning	CodeCode Available	1
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking	Feb 11, 2022	Logical Reasoning	CodeCode Available	1
Domain Specific Question Answering Over Knowledge Graphs Using Logical Programming and Large Language Models	Mar 3, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available	1
Do PLMs Know and Understand Ontological Knowledge?	Sep 12, 2023	Logical ReasoningMemorization	CodeCode Available	1
Mind Reasoning Manners: Enhancing Type Perception for Generalized Zero-shot Logical Reasoning over Text	Jan 8, 2023	Contrastive LearningLogical Reasoning	CodeCode Available	1
Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs	Oct 22, 2020	Complex Query AnsweringKnowledge Graphs	CodeCode Available	1
Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent	Dec 14, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4	Apr 7, 2023	Logical ReasoningNatural Language Inference	CodeCode Available	1
FOLIO: Natural Language Reasoning with First-Order Logic	Sep 2, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Neural Logic Reasoning	Aug 20, 2020	Logical ReasoningRecommendation Systems	CodeCode Available	1
NeuralLog: Natural Language Inference with Joint Neural and Logical Reasoning	May 29, 2021	Deep LearningLanguage Modeling	CodeCode Available	1
Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration	Apr 17, 2025	Geometry Problem SolvingLarge Language Model	CodeCode Available	1
Discriminative Reasoning for Document-level Relation Extraction	Jun 3, 2021	Document-level Relation ExtractionLogical Reasoning	CodeCode Available	1
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models	Aug 28, 2024	BenchmarkingLogical Reasoning	CodeCode Available	1
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting	May 11, 2023	AllArithmetic Reasoning	CodeCode Available	1
QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?	Mar 28, 2025	Logical ReasoningMath	CodeCode Available	1
Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification	Feb 16, 2024	Claim VerificationLogical Reasoning	—Unverified	0
City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization	Jun 16, 2024	Language ModellingLarge Language Model	—Unverified	0
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models	Dec 15, 2020	Logical Reasoning	—Unverified	0
ChatGPT is a Remarkable Tool -- For Experts	Jun 2, 2023	Logical Reasoning	—Unverified	0
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT	Apr 21, 2023	DeciphermentLogical Reasoning	—Unverified	0
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism	Oct 23, 2023	Logical ReasoningNegation	—Unverified	0
Assessing SATNet's Ability to Solve the Symbol Grounding Problem	Dec 13, 2023	Logical Reasoning	—Unverified	0
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos	Feb 19, 2025	Logical Reasoning	—Unverified	0
Extending Automated Deduction for Commonsense Reasoning	Mar 29, 2020	BIG-bench Machine LearningLogical Reasoning	—Unverified	0
FaiRR: Faithful and Robust Deductive Reasoning over Natural Language	Jan 16, 2022	Fact SelectionLogical Reasoning	—Unverified	0
Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach	Sep 20, 2019	Few-Shot LearningLogical Reasoning	—Unverified	0
Exploring Generalization Ability of Pretrained Language Models on Arithmetic and Logical Reasoning	Aug 15, 2021	Logical Reasoning	—Unverified	0
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models	Aug 16, 2024	Logical Reasoningvalid	—Unverified	0
A (Simplified) Supreme Being Necessarily Exists, says the Computer: Computationally Explored Variants of Gödel's Ontological Argument	Jan 14, 2020	Logical Reasoning	—Unverified	0
CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified	0
CausalR: Causal Reasoning over Natural Language Rulebases	Nov 16, 2021	Fact SelectionLogical Reasoning	—Unverified	0
A Simple Generative Model of Logical Reasoning and Statistical Learning	May 18, 2023	Bayesian InferenceFormal Logic	—Unverified	0

Show:10 25 50

← PrevPage 4 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified