Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 747 papers

Title	Date	Tasks	Status
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified
City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization	Jun 16, 2024	Language ModellingLarge Language Model	—Unverified
BTPK-based interpretable method for NER tasks based on Talmudic Public Announcement Logic	Jan 24, 2022	Decision MakingLogical Reasoning	—Unverified
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts	Jun 27, 2024	Decision MakingLogical Reasoning	—Unverified
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding	Nov 12, 2023	Language ModelingLanguage Modelling	—Unverified
Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic	Dec 10, 2024	Logical Reasoning	—Unverified
Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1	Mar 20, 2025	Large Language ModelLogical Reasoning	—Unverified
Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation	Jul 31, 2024	Logical ReasoningMisinformation	—Unverified
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games	Jul 5, 2024	Logical Reasoning	—Unverified
KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data	Oct 10, 2024	Anomaly DetectionFraud Detection	—Unverified
Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation	Dec 26, 2023	HallucinationIn-Context Learning	—Unverified
Brainstorming Brings Power to Large Language Models of Knowledge Reasoning	Jun 2, 2024	Logical ReasoningReading Comprehension	—Unverified
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models	Sep 25, 2024	Fake News DetectionLanguage Modeling	—Unverified
Do Large Language Models Understand Logic or Just Mimick Context?	Feb 19, 2024	counterfactualIn-Context Learning	—Unverified
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models	Jan 25, 2025	Logical Reasoning	—Unverified
KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
Knowledge Authoring for Rules and Actions	May 12, 2023	Logical Reasoning	—Unverified
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork	Jun 1, 2023	Logical Reasoning	—Unverified
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought	Aug 16, 2023	Logical Reasoning	—Unverified
Does Entity Abstraction Help Generative Transformers Reason?	Jan 5, 2022	Conversational Question AnsweringLogical Reasoning	—Unverified
Boosting Deductive Reasoning with Step Signals In RLHF	Oct 12, 2024	Formal LogicLogical Reasoning	—Unverified
DMWM: Dual-Mind World Model with Long-Term Imagination	Feb 11, 2025	Logical Reasoning	—Unverified
A Probabilistic Model for Discriminative and Neuro-Symbolic Semi-Supervised Learning	Jun 10, 2020	Data AugmentationImage Augmentation	—Unverified
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning	May 22, 2024	Code GenerationInstruction Following	—Unverified
Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution	Mar 26, 2021	AttributeLogical Reasoning	—Unverified
Is writing style predictive of scientific fraud?	Jul 13, 2017	Logical Reasoning	—Unverified
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning	Dec 19, 2022	Data AugmentationLanguage Modeling	—Unverified
Bi-Chainer: Automated Large Language Models Reasoning with Bidirectional Chaining	Jun 5, 2024	Logical Reasoning	—Unverified
A Densely Connected Criss-Cross Attention Network for Document-level Relation Extraction	Mar 26, 2022	Document-level Relation ExtractionLogical Reasoning	—Unverified
Discrete JEPA: Learning Discrete Token Representations without Reconstruction	Jun 17, 2025	Logical Reasoning	—Unverified
Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models	Feb 3, 2024	Logical ReasoningLong-Context Understanding	—Unverified
Is ChatGPT a Good Personality Recognizer? A Preliminary Study	Jul 8, 2023	FairnessLogical Reasoning	—Unverified
Discourse-Aware Graph Networks for Textual Logical Reasoning	Jul 4, 2022	graph constructionLogical Reasoning	—Unverified
Dialogue-based Explanations for Logical Reasoning using Structured Argumentation	Feb 16, 2025	Logical Reasoning	—Unverified
Beyond LLMs: Advancing the Landscape of Complex Reasoning	Feb 12, 2024	Logical Reasoningvalid	—Unverified
Diagnosing the First-Order Logical Reasoning Ability Through LogicNLI	Nov 1, 2021	DiagnosticLogical Reasoning	—Unverified
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study	Feb 11, 2024	DiversityLogical Reasoning	—Unverified
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs	Nov 27, 2024	Logical ReasoningSemantic Parsing	—Unverified
Is writing style predictive of scientific fraud?	Sep 1, 2017	Logical Reasoning	—Unverified
JAMES: Normalizing Job Titles with Multi-Aspect Graph Embeddings and Reasoning	Feb 22, 2022	Logical ReasoningSemantic Similarity	—Unverified
DetectGPT-SC: Improving Detection of Text Generated by Large Language Models through Self-Consistency with Masked Predictions	Oct 23, 2023	Logical ReasoningText Generation	—Unverified
Bayes Meets Entailment and Prediction: Commonsense Reasoning with Non-monotonicity, Paraconsistency and Predictive Accuracy	Dec 15, 2020	Logical ReasoningRelation	—Unverified
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model	Oct 4, 2024	DiversityLogical Reasoning	—Unverified
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback	Nov 21, 2023	Logical Reasoning	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Towards Geometry Problem Solving in the Large Model Era: A Survey	Jun 3, 2025	Geometry Problem SolvingLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 6 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified