Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 747 papers

Title	Date	Tasks	Status
Multimodal-to-Text Prompt Engineering in Large Language Models Using Feature Embeddings for GNSS Interference Characterization	Jan 9, 2025	Information RetrievalLogical Reasoning	—Unverified
Exploring Self-supervised Logic-enhanced Training for Large Language Models	May 23, 2023	In-Context LearningLogical Reasoning	CodeCode Available
Logical Tasks for Measuring Extrapolation and Rule Comprehension	Nov 14, 2022	Inductive BiasLogical Reasoning	CodeCode Available
Logical Reasoning with Span-Level Predictions for Interpretable and Robust NLI Models	May 23, 2022	Logical ReasoningNatural Language Inference	CodeCode Available
Logical Reasoning over Natural Language as Knowledge Representation: A Survey	Mar 21, 2023	Logical ReasoningSurvey	CodeCode Available
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models	Sep 26, 2024	Logical Reasoning	CodeCode Available
Atomic Inference for NLI with Generated Facts as Atoms	May 22, 2023	Logical ReasoningNatural Language Inference	CodeCode Available
Bridging Machine Learning and Logical Reasoning by Abductive Learning	Dec 1, 2019	BIG-bench Machine LearningLogical Reasoning	CodeCode Available
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning	Sep 19, 2024	GSM8KLogical Reasoning	CodeCode Available
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages	Jun 10, 2024	Logical Reasoning	CodeCode Available
Synthesizing a Progression of Subtasks for Block-Based Visual Programming Tasks	May 27, 2023	Logical Reasoning	CodeCode Available
Large Language Models are Limited in Out-of-Context Knowledge Reasoning	Jun 11, 2024	AttributeLogical Reasoning	CodeCode Available
Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models	Jun 18, 2024	Logical Reasoning	CodeCode Available
Understanding Inter-Session Intentions via Complex Logical Reasoning	Dec 21, 2023	AttributeComplex Query Answering	CodeCode Available
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available
Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach	Oct 29, 2024	Logical Reasoning	CodeCode Available
Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?	Oct 9, 2024	In-Context LearningLogical Reasoning	CodeCode Available
Towards High-Order Complementary Recommendation via Logical Reasoning Network	Dec 9, 2022	Logical ReasoningNegation	CodeCode Available
LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning	Apr 28, 2025	Anomaly DetectionLogical Reasoning	CodeCode Available
LR-XFL: Logical Reasoning-based Explainable Federated Learning	Aug 24, 2023	Federated LearningLogical Reasoning	CodeCode Available
Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures?	Jul 12, 2024	Logical ReasoningMultiple-choice	CodeCode Available
Learning the meanings of function words from grounded language using a visual question answering model	Aug 16, 2023	Logical ReasoningQuestion Answering	CodeCode Available
Table-based Fact Verification with Self-adaptive Mixture of Experts	Apr 19, 2022	Fact VerificationLogical Reasoning	CodeCode Available
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers	Oct 5, 2023	DecoderLogical Reasoning	CodeCode Available
Tackling Universal Properties of Minimal Trap Spaces of Boolean Networks	May 3, 2023	Logical Reasoning	CodeCode Available
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning	Nov 14, 2023	Logical FallaciesLogical Reasoning	CodeCode Available
TAPE: Assessing Few-shot Russian Language Understanding	Oct 23, 2022	Adversarial AttackAdversarial Text	CodeCode Available
Declarative Question Answering over Knowledge Bases containing Natural Language Text with Answer Set Programming	May 1, 2019	Logical ReasoningNatural Language Inference	CodeCode Available
Learning Symmetric Rules with SATNet	Jun 28, 2022	Logical ReasoningRubik's Cube	CodeCode Available
Learning for Long-Horizon Planning via Neuro-Symbolic Abductive Imitation	Nov 27, 2024	Imitation LearningLogical Reasoning	CodeCode Available
Large Language Models Are Cross-Lingual Knowledge-Free Reasoners	Jun 24, 2024	Cross-Lingual TransferLogical Reasoning	CodeCode Available
Teaching Probabilistic Logical Reasoning to Transformers	May 22, 2023	Logical ReasoningQuestion Answering	CodeCode Available
Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning	Jun 22, 2021	Deep LearningLogical Reasoning	CodeCode Available
MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures	Oct 20, 2024	Answer GenerationInformativeness	CodeCode Available
Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees	Aug 21, 2023	Logical Reasoning	CodeCode Available
Language models show human-like content effects on reasoning tasks	Jul 14, 2022	Language ModellingLogical Reasoning	CodeCode Available
MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure	Oct 22, 2022	FormLogical Reasoning	CodeCode Available
Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models	Jun 30, 2023	Domain GeneralizationIn-Context Learning	CodeCode Available
CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs	Apr 21, 2025	Claim VerificationLogical Reasoning	CodeCode Available
Techniques for Symbol Grounding with SATNet	Jun 16, 2021	Logical ReasoningVisual Reasoning	CodeCode Available
Language Model Guided Interpretable Video Action Reasoning	Apr 2, 2024	Action RecognitionDecision Making	CodeCode Available
Breaking the Language Barrier: Improving Cross-Lingual Reasoning with Structured Self-Attention	Oct 23, 2023	Logical Reasoning	CodeCode Available
A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text	May 3, 2023	Image RetrievalLogical Reasoning	CodeCode Available
Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic	Sep 18, 2021	Explanation GenerationLogical Reasoning	CodeCode Available
MMM: Multi-stage Multi-task Learning for Multi-choice Reading Comprehension	Oct 1, 2019	Logical ReasoningMachine Reading Comprehension	CodeCode Available
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios	Mar 8, 2025	BenchmarkingDiagnostic	CodeCode Available
Revisiting Document-Level Relation Extraction with Context-Guided Link Prediction	Jan 22, 2024	Document-level Relation ExtractionLink Prediction	CodeCode Available
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models	Jan 24, 2025	Logical Reasoning	CodeCode Available
Investigating the Robustness of Natural Language Generation from Logical Forms via Counterfactual Samples	Oct 16, 2022	counterfactualLogical Reasoning	CodeCode Available
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic	May 24, 2023	Logical ReasoningMath	CodeCode Available

Show:10 25 50

← PrevPage 13 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified