Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 747 papers

Title	Date	Tasks	Status	Score
Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis	Nov 1, 2023	Logical ReasoningPrompt Engineering	CodeCode Available	5
Neural Sequence-to-grid Module for Learning Symbolic Rules	Jan 13, 2021	Logical Reasoning	CodeCode Available	5
Neural Software Analysis	Nov 16, 2020	Code CompletionLogical Reasoning	CodeCode Available	5
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash	Nov 15, 2024	Logical Reasoning	CodeCode Available	5
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam	Jun 14, 2024	FairnessLogical Reasoning	CodeCode Available	5
Probabilistic Sufficient Explanations	May 21, 2021	Logical Reasoning	CodeCode Available	5
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available	5
A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters	Jun 1, 2024	Logical ReasoningTranslation	CodeCode Available	5
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data	Sep 19, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available	5
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models	Jun 24, 2024	Logical ReasoningNatural Language Understanding	CodeCode Available	5
Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models	Jun 30, 2023	Domain GeneralizationIn-Context Learning	CodeCode Available	5
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework	Dec 22, 2024	Logical Reasoning	CodeCode Available	5
Can recursive neural tensor networks learn logical reasoning?	Dec 21, 2013	Logical ReasoningTensor Networks	CodeCode Available	5
MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure	Oct 22, 2022	FormLogical Reasoning	CodeCode Available	5
MMM: Multi-stage Multi-task Learning for Multi-choice Reading Comprehension	Oct 1, 2019	Logical ReasoningMachine Reading Comprehension	CodeCode Available	5
Improving Certified Robustness via Statistical Learning with Logical Reasoning	Feb 28, 2020	BIG-bench Machine LearningLogical Reasoning	CodeCode Available	5
Empower Nested Boolean Logic via Self-Supervised Curriculum Learning	Oct 9, 2023	Logical ReasoningSelf-Supervised Learning	CodeCode Available	5
MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures	Oct 20, 2024	Answer GenerationInformativeness	CodeCode Available	5
Empowering Few-Shot Recommender Systems with Large Language Models -- Enhanced Representations	Dec 21, 2023	Logical ReasoningRecommendation Systems	CodeCode Available	5
LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning	Apr 28, 2025	Anomaly DetectionLogical Reasoning	CodeCode Available	5
LR-XFL: Logical Reasoning-based Explainable Federated Learning	Aug 24, 2023	Federated LearningLogical Reasoning	CodeCode Available	5
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	5
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available	5
Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?	Jun 5, 2025	Formal LogicIn-Context Learning	CodeCode Available	5
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models	Sep 26, 2024	Logical Reasoning	CodeCode Available	5
Bridging Machine Learning and Logical Reasoning by Abductive Learning	Dec 1, 2019	BIG-bench Machine LearningLogical Reasoning	CodeCode Available	5
Breaking the Language Barrier: Improving Cross-Lingual Reasoning with Structured Self-Attention	Oct 23, 2023	Logical Reasoning	CodeCode Available	5
Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?	Jun 11, 2024	Autonomous DrivingDeep Learning	CodeCode Available	5
Double Equivariance for Inductive Link Prediction for Both New Nodes and New Relation Types	Feb 2, 2023	Inductive Link PredictionKnowledge Graph Completion	CodeCode Available	5
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning	Sep 19, 2024	GSM8KLogical Reasoning	CodeCode Available	5
Logical Reasoning with Span-Level Predictions for Interpretable and Robust NLI Models	May 23, 2022	Logical ReasoningNatural Language Inference	CodeCode Available	5
Logical Reasoning over Natural Language as Knowledge Representation: A Survey	Mar 21, 2023	Logical ReasoningSurvey	CodeCode Available	5
Logical Tasks for Measuring Extrapolation and Rule Comprehension	Nov 14, 2022	Inductive BiasLogical Reasoning	CodeCode Available	5
Atomic Inference for NLI with Generated Facts as Atoms	May 22, 2023	Logical ReasoningNatural Language Inference	CodeCode Available	5
Document-level Biomedical Relation Extraction Based on Multi-Dimensional Fusion Information and Multi-Granularity Logical Reasoning	Oct 1, 2022	Logical ReasoningRelation	CodeCode Available	5
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models	Dec 18, 2023	Logical Reasoning	CodeCode Available	5
Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study	Jun 5, 2025	Logical Reasoning	CodeCode Available	5
Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities	Jun 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models	Jun 18, 2024	Logical Reasoning	CodeCode Available	5
Large Language Models are Limited in Out-of-Context Knowledge Reasoning	Jun 11, 2024	AttributeLogical Reasoning	CodeCode Available	5
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages	Jun 10, 2024	Logical Reasoning	CodeCode Available	5
Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures?	Jul 12, 2024	Logical ReasoningMultiple-choice	CodeCode Available	5
Learning the meanings of function words from grounded language using a visual question answering model	Aug 16, 2023	Logical ReasoningQuestion Answering	CodeCode Available	5
Learning Symmetric Rules with SATNet	Jun 28, 2022	Logical ReasoningRubik's Cube	CodeCode Available	5
Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach	Oct 29, 2024	Logical Reasoning	CodeCode Available	5
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available	5
DeepLogic: Towards End-to-End Differentiable Logical Reasoning	May 18, 2018	BIG-bench Machine LearningLogical Reasoning	CodeCode Available	5
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers	Oct 5, 2023	DecoderLogical Reasoning	CodeCode Available	5
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available	5
Declarative Question Answering over Knowledge Bases containing Natural Language Text with Answer Set Programming	May 1, 2019	Logical ReasoningNatural Language Inference	CodeCode Available	5

Show:10 25 50

← PrevPage 5 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified