Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–747 of 747 papers

Title	Date	Tasks	Status
On the Hardness of Probabilistic Neurosymbolic Learning	Jun 6, 2024	Logical Reasoning	CodeCode Available
On the logical skills of large language models: evaluations using arbitrarily complex first-order logic problems	Feb 20, 2025	Logical Reasoning	CodeCode Available
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash	Nov 15, 2024	Logical Reasoning	CodeCode Available
ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding	May 25, 2025	Chart UnderstandingLogical Reasoning	CodeCode Available
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam	Jun 14, 2024	FairnessLogical Reasoning	CodeCode Available
Ontology Reasoning with Deep Neural Networks	Aug 24, 2018	Logical Reasoning	CodeCode Available
Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles	Apr 9, 2025	Logical FallaciesLogical Reasoning	CodeCode Available
Zero-Shot Classification by Logical Reasoning on Natural Language Explanations	Nov 7, 2022	ClassificationLogical Reasoning	CodeCode Available
Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks	Jul 5, 2016	Logical Reasoning	CodeCode Available
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data	Sep 19, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available
SPHERE: A Hierarchical Evaluation on Spatial Perception and Reasoning for Vision-Language Models	Dec 17, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available
Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?	Jun 5, 2025	Formal LogicIn-Context Learning	CodeCode Available
Adaptive Rectification Sampling for Test-Time Compute Scaling	Apr 2, 2025	GSM8KLogical Reasoning	CodeCode Available
Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations	Mar 12, 2024	Decision MakingLogical Reasoning	CodeCode Available
Improving Certified Robustness via Statistical Learning with Logical Reasoning	Feb 28, 2020	BIG-bench Machine LearningLogical Reasoning	CodeCode Available
A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters	Jun 1, 2024	Logical ReasoningTranslation	CodeCode Available
Empower Nested Boolean Logic via Self-Supervised Curriculum Learning	Oct 9, 2023	Logical ReasoningSelf-Supervised Learning	CodeCode Available
POE: Process of Elimination for Multiple Choice Reasoning	Oct 24, 2023	In-Context LearningLogical Reasoning	CodeCode Available
Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension	Sep 22, 2024	Contrastive Learningcounterfactual	CodeCode Available
Deep Manifold Learning for Reading Comprehension and Logical Reasoning Tasks with Polytuplet Loss	Apr 3, 2023	Logical ReasoningReading Comprehension	CodeCode Available
Empowering Few-Shot Recommender Systems with Large Language Models -- Enhanced Representations	Dec 21, 2023	Logical ReasoningRecommendation Systems	CodeCode Available
Probabilistic Sufficient Explanations	May 21, 2021	Logical Reasoning	CodeCode Available
Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?	Jul 20, 2024	Logical Reasoning	CodeCode Available
Three tiers of computation in transformers and in brain architectures	Mar 5, 2025	Logical Reasoning	CodeCode Available
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification	Sep 24, 2024	Data AugmentationLogical Reasoning	CodeCode Available
What Makes Reading Comprehension Questions Difficult?	Mar 12, 2022	Logical ReasoningMultiple-choice	CodeCode Available
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available
Volta at SemEval-2021 Task 9: Statement Verification and Evidence Finding with Tables using TAPAS and Transfer Learning	Jun 1, 2021	Logical ReasoningTransfer Learning	CodeCode Available
Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?	Jun 11, 2024	Autonomous DrivingDeep Learning	CodeCode Available
Can recursive neural tensor networks learn logical reasoning?	Dec 21, 2013	Logical ReasoningTensor Networks	CodeCode Available
Sudoku-Bench: Evaluating creative reasoning with Sudoku variants	May 22, 2025	DiversityLogical Reasoning	CodeCode Available
Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics	May 7, 2024	Logical Reasoning	CodeCode Available
Double Equivariance for Inductive Link Prediction for Both New Nodes and New Relation Types	Feb 2, 2023	Inductive Link PredictionKnowledge Graph Completion	CodeCode Available
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers	May 26, 2025	Logical ReasoningMathematical Problem-Solving	CodeCode Available
SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis	May 27, 2025	Logical ReasoningVulnerability Detection	CodeCode Available
Document-level Biomedical Relation Extraction Based on Multi-Dimensional Fusion Information and Multi-Granularity Logical Reasoning	Oct 1, 2022	Logical ReasoningRelation	CodeCode Available
Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs	May 23, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available
Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study	Jun 5, 2025	Logical Reasoning	CodeCode Available
Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities	Jun 4, 2024	Language ModelingLanguage Modelling	CodeCode Available
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available
DeepLogic: Towards End-to-End Differentiable Logical Reasoning	May 18, 2018	BIG-bench Machine LearningLogical Reasoning	CodeCode Available
Matrix Shuffle-Exchange Networks for Hard 2D Tasks	Jun 29, 2020	Graph Neural NetworkImage Classification	CodeCode Available
A Neural-Symbolic Approach to Natural Language Understanding	Mar 20, 2022	Logical ReasoningNatural Language Inference	CodeCode Available
Semantic RL with Action Grammars: Data-Efficient Learning of Hierarchical Task Abstractions	Jul 29, 2019	Hierarchical Reinforcement LearningLogical Reasoning	CodeCode Available
Reasoning Capabilities and Invariability of Large Language Models	May 1, 2025	Logical Reasoning	CodeCode Available
Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation	Oct 19, 2024	FormLogical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 15 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified