Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 747 papers

Title	Date	Tasks	Status
A Simple Generative Model of Logical Reasoning and Statistical Learning	May 18, 2023	Bayesian InferenceFormal Logic	—Unverified
A (Simplified) Supreme Being Necessarily Exists, says the Computer: Computationally Explored Variants of Gödel's Ontological Argument	Jan 14, 2020	Logical Reasoning	—Unverified
Assessing SATNet's Ability to Solve the Symbol Grounding Problem	Dec 13, 2023	Logical Reasoning	—Unverified
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism	Oct 23, 2023	Logical ReasoningNegation	—Unverified
Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification	Feb 16, 2024	Claim VerificationLogical Reasoning	—Unverified
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
A Survey of Knowledge Enhanced Pre-trained Models	Oct 1, 2021	Logical ReasoningRepresentation Learning	—Unverified
A Survey on State-of-the-art Techniques for Knowledge Graphs Construction and Challenges ahead	Oct 15, 2021	Knowledge GraphsLogical Reasoning	—Unverified
A Synergistic Approach In Network Intrusion Detection By Neurosymbolic AI	Jun 3, 2024	Intrusion DetectionLogical Reasoning	—Unverified
A Systematic Assessment of OpenAI o1-Preview for Higher Order Thinking in Education	Oct 11, 2024	Logical Reasoning	—Unverified
A Theoretical Solution of the Mind-Body Problem: An Operationalized Proof that no Purely Physical System Can Exhibit all the Properties of Human Consciousness	Oct 31, 2017	AllLogical Reasoning	—Unverified
Attribution-Scores and Causal Counterfactuals as Explanations in Artificial Intelligence	Mar 6, 2023	Logical ReasoningManagement	—Unverified
Automated scholarly paper review: Concepts, technologies, and challenges	Nov 15, 2021	Logical Reasoning	—Unverified
Automated Theorem Provers Help Improve Large Language Model Reasoning	Aug 7, 2024	Formal LogicLanguage Modeling	—Unverified
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs	Feb 4, 2025	Formal LogicKnowledge Graphs	—Unverified
Autoregressive Image Generation Guided by Chains of Thought	Feb 24, 2025	Image GenerationLogical Reasoning	—Unverified
Axiom Learning and Belief Tracing for Transparent Decision Making in Robotics	Oct 20, 2020	Decision MakingLogical Reasoning	—Unverified
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding	Mar 2, 2024	Logical ReasoningNegation	—Unverified
Bayesian Entailment Hypothesis: How Brains Implement Monotonic and Non-monotonic Reasoning	May 3, 2020	Logical ReasoningRelation	—Unverified
Bayes Meets Entailment and Prediction: Commonsense Reasoning with Non-monotonicity, Paraconsistency and Predictive Accuracy	Dec 15, 2020	Logical ReasoningRelation	—Unverified
Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study	Feb 11, 2024	DiversityLogical Reasoning	—Unverified
Beyond LLMs: Advancing the Landscape of Complex Reasoning	Feb 12, 2024	Logical Reasoningvalid	—Unverified
Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models	Feb 3, 2024	Logical ReasoningLong-Context Understanding	—Unverified
Bi-Chainer: Automated Large Language Models Reasoning with Bidirectional Chaining	Jun 5, 2024	Logical Reasoning	—Unverified
BloombergGPT: A Large Language Model for Finance	Mar 30, 2023	Causal JudgmentCommon Sense Reasoning	—Unverified
Boosting Deductive Reasoning with Step Signals In RLHF	Oct 12, 2024	Formal LogicLogical Reasoning	—Unverified
Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought	Aug 16, 2023	Logical Reasoning	—Unverified
Brainstorming Brings Power to Large Language Models of Knowledge Reasoning	Jun 2, 2024	Logical ReasoningReading Comprehension	—Unverified
Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1	Mar 20, 2025	Large Language ModelLogical Reasoning	—Unverified
BTPK-based interpretable method for NER tasks based on Talmudic Public Announcement Logic	Jan 24, 2022	Decision MakingLogical Reasoning	—Unverified
Building Trustworthy AI: Transparent AI Systems via Large Language Models, Ontologies, and Logical Reasoning (TranspNet)	Nov 13, 2024	Logical ReasoningRAG	—Unverified
Can BERT Conduct Logical Reasoning? On the Difficulty of Learning to Reason from Data	Jan 16, 2022	Logical Reasoning	—Unverified
Can Large Language Models Reason? A Characterization via 3-SAT	Aug 13, 2024	Logical Reasoning	—Unverified
Can OpenAI o1 outperform humans in higher-order cognitive thinking?	Dec 7, 2024	Logical Reasoning	—Unverified
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified
Can Transformers Reason Logically? A Study in SAT Solving	Oct 9, 2024	DecoderLogical Reasoning	—Unverified
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues	Apr 4, 2024	ChatbotInstruction Following	—Unverified
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making	Jun 15, 2025	Answer GenerationDecision Making	—Unverified
Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism	Jun 26, 2024	Logical Reasoning	—Unverified
CausalR: Causal Reasoning over Natural Language Rulebases	Nov 16, 2021	Fact SelectionLogical Reasoning	—Unverified
CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT	Apr 21, 2023	DeciphermentLogical Reasoning	—Unverified
ChatGPT is a Remarkable Tool -- For Experts	Jun 2, 2023	Logical Reasoning	—Unverified
City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization	Jun 16, 2024	Language ModellingLarge Language Model	—Unverified
CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge	Jul 30, 2024	In-Context LearningKnowledge Graphs	—Unverified
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning	Oct 3, 2024	GSM8KLanguage Modeling	—Unverified
Cognitive Argumentation and the Suppression Task	Feb 24, 2020	Logical Reasoning	—Unverified
Combining Commonsense Reasoning and Knowledge Acquisition to Guide Deep Learning in Robotics	Jan 25, 2022	Decision MakingLogical Reasoning	—Unverified
Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data	Oct 28, 2024	Logical Reasoningnamed-entity-recognition	—Unverified
Compositional Attention Networks for Interpretability in Natural Language Question Answering	Oct 30, 2018	Logical ReasoningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 10 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified