Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 747 papers

Title	Date	Tasks	Status
On the Potential of CLIP for Compositional Logical Reasoning	Aug 30, 2023	Logical ReasoningVisual Reasoning	—Unverified
OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?	Nov 9, 2024	Logical ReasoningMath	—Unverified
Order Doesn't Matter, But Reasoning Does: Training LLMs with Order-Centric Augmentation	Feb 27, 2025	Data AugmentationLogical Reasoning	—Unverified
P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training	Aug 10, 2024	DiversityLogical Reasoning	—Unverified
Pathformer: Recursive Path Query Encoding for Complex Logical Query Answering	Jun 21, 2024	Knowledge GraphsLogical Reasoning	—Unverified
PathReasoner: Modeling Reasoning Path with Equivalent Extension for Logical Question Answering	May 29, 2024	DiversityLogical Reasoning	—Unverified
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains	Oct 11, 2024	Large Language ModelLogical Reasoning	—Unverified
Physics of Language Models: Part 3.2, Knowledge Manipulation	Sep 25, 2023	AttributeLanguage Modelling	—Unverified
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs	Feb 12, 2024	Instruction FollowingLogical Reasoning	—Unverified
POLYRAG: Integrating Polyviews into Retrieval-Augmented Generation for Medical Applications	Apr 21, 2025	HallucinationLogical Reasoning	—Unverified
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified
ProSLM : A Prolog Synergized Language Model for explainable Domain Specific Knowledge Based Question Answering	Sep 17, 2024	Formal LogicLanguage Modeling	—Unverified
Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent	Apr 7, 2025	Logical Reasoning	—Unverified
Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling	Mar 5, 2025	In-Context LearningLogical Reasoning	—Unverified
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving	Apr 15, 2025	Logical ReasoningVisual Question Answering (VQA)	—Unverified
Puzzle Solving using Reasoning of Large Language Models: A Survey	Feb 17, 2024	Logical ReasoningSurvey	—Unverified
Quantifying Adaptability in Pre-trained Language Models with 500 Tasks	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Quantifying Logical Consistency in Transformers via Query-Key Alignment	Feb 24, 2025	Logical Reasoningvalid	—Unverified
Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach	Sep 20, 2019	Few-Shot LearningLogical Reasoning	—Unverified
Quantum Structure in Cognition and the Foundations of Human Reasoning	Dec 30, 2014	Decision MakingLogical Reasoning	—Unverified
Quantum Structure of Negation and Conjunction in Human Thought	Mar 14, 2015	Logical ReasoningNegation	—Unverified
Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding	Apr 4, 2024	Logical FallaciesLogical Reasoning	—Unverified
Reasoning Algorithmically in Graph Neural Networks	Feb 21, 2024	Combinatorial OptimizationEdge Classification	—Unverified
Reasoning-Aware Query-Focused Summarization over Multi-Table Data	Dec 12, 2024	Logical ReasoningQuery-focused Summarization	—Unverified
Reasoning in Neurosymbolic AI	May 22, 2025	FairnessLogical Reasoning	—Unverified
Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts	Mar 17, 2024	Language ModelingLanguage Modelling	—Unverified
Reasoning in Vector Space: An Exploratory Study of Question Answering	Nov 19, 2015	Common Sense ReasoningLogical Reasoning	—Unverified
Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation	Mar 12, 2025	Allcounterfactual	—Unverified
Reasoning Like Program Executors	Nov 16, 2021	Logical ReasoningMath	—Unverified
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification	Apr 7, 2025	Logical ReasoningMath	—Unverified
Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs	Oct 26, 2024	DiagnosticLogical Reasoning	—Unverified
Reasoning over Logically Interacted Conditions for Question Answering	May 25, 2022	Logical ReasoningQuestion Answering	—Unverified
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning	Jan 14, 2025	Logical ReasoningMulti-hop Question Answering	—Unverified
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog	Apr 10, 2022	Logical ReasoningSentence	—Unverified
Reduced Implication-bias Logic Loss for Neuro-Symbolic Learning	Aug 14, 2022	Logical Reasoning	—Unverified
Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring	Oct 20, 2023	Logical ReasoningResponse Generation	—Unverified
Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions	Feb 25, 2025	Inductive BiasLogical Reasoning	—Unverified
Reverse Thinking Makes LLMs Stronger Reasoners	Nov 29, 2024	Data AugmentationKnowledge Distillation	—Unverified
RLSF: Reinforcement Learning via Symbolic Feedback	May 26, 2024	Logical ReasoningNatural Language Understanding	—Unverified
Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning	Mar 25, 2025	Language ModelingLanguage Modelling	—Unverified
S^2-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency	Feb 7, 2025	Logical Reasoning	—Unverified
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas	May 20, 2025	BenchmarkingLogical Reasoning	—Unverified
Scales and Hedges in a Logic with Analogous Semantics	Jan 21, 2022	Decision MakingLogical Reasoning	—Unverified
Scallop: A Language for Neurosymbolic Programming	Apr 10, 2023	Logical ReasoningNegation	—Unverified
Scallop: From Probabilistic Deductive Databases to Scalable Differentiable Reasoning	Dec 1, 2021	Logical ReasoningQuestion Answering	—Unverified
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning	May 19, 2022	Logical Reasoning	—Unverified
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment	Nov 27, 2024	ClassificationDecision Making	—Unverified
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning	Mar 26, 2025	Logical Reasoning	—Unverified

Show:10 25 50

← PrevPage 10 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified