Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 747 papers

Title	Date	Tasks	Status
Type-dependent Prompt CycleQAG : Cycle Consistency for Multi-hop Question Generation	Oct 1, 2022	Answer GenerationLogical Reasoning	—Unverified
Unifying Neural Learning and Symbolic Reasoning for Spinal Medical Report Generation	Apr 28, 2020	Decision MakingGenerative Adversarial Network	—Unverified
Unifying Structure Reasoning and Language Model Pre-training for Complex Reasoning	Jan 21, 2023	Language ModelingLanguage Modelling	—Unverified
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator	Sep 14, 2024	Logical ReasoningRecommendation Systems	—Unverified
Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring	Jul 4, 2024	Logical Reasoning	—Unverified
VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning	Jan 24, 2025	Logical Reasoning	—Unverified
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models	Mar 29, 2025	Logical Reasoning	—Unverified
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving	Sep 16, 2024	Autonomous DrivingLogical Reasoning	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified
Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation	Sep 30, 2024	Logical ReasoningMisinformation	—Unverified
What is the Title of this Paper? Solving logic puzzles using algorithms	Jun 30, 2023	Logical Reasoning	—Unverified
What Makes Machine Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Nov 16, 2021	Logical ReasoningMachine Reading Comprehension	—Unverified
What Makes Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Sep 17, 2021	Logical ReasoningMultiple-choice	—Unverified
Why should we ever automate moral decision making?	Jul 10, 2024	Decision MakingEthics	—Unverified
XAgents: A Framework for Interpretable Rule-Based Multi-Agents Cooperation	Nov 21, 2024	Feature CorrelationLogical Reasoning	—Unverified
WatME: Towards Lossless Watermarking Through Lexical Redundancy	Nov 16, 2023	Instruction FollowingLanguage Modelling	—Unverified
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning	Feb 3, 2025	Logical Reasoning	—Unverified
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation	Jul 31, 2024	Logical ReasoningMisinformation	—Unverified
GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion	Sep 21, 2024	Logical Reasoning	—Unverified
Towards Geometry Problem Solving in the Large Model Era: A Survey	Jun 3, 2025	Geometry Problem SolvingLogical Reasoning	—Unverified
3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o	Mar 17, 2025	Logical ReasoningPrompt Engineering	—Unverified
AbductionRules: Training Transformers to Explain Unexpected Inputs	Nov 16, 2021	Common Sense ReasoningLogical Reasoning	—Unverified
Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution	Mar 26, 2021	AttributeLogical Reasoning	—Unverified
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models	Jan 25, 2025	Logical Reasoning	—Unverified
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models	Dec 15, 2020	Logical Reasoning	—Unverified
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT	Feb 18, 2023	Graph LearningLanguage Modelling	—Unverified
Action is the primary key: a categorical framework for episode description and logical reasoning	Sep 7, 2024	Logical Reasoning	—Unverified
A Densely Connected Criss-Cross Attention Network for Document-level Relation Extraction	Mar 26, 2022	Document-level Relation ExtractionLogical Reasoning	—Unverified
Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic	Dec 10, 2024	Logical Reasoning	—Unverified
Aligning CodeLLMs with Direct Preference Optimization	Oct 24, 2024	Decision MakingHumanEval	—Unverified
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models	Aug 16, 2024	Logical Reasoningvalid	—Unverified
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos	Feb 19, 2025	Logical Reasoning	—Unverified
AnaLog: Testing Analytical and Deductive Logic Learnability in Language Models	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Analyzing Large language models chatbots: An experimental approach using a probability test	Jul 10, 2024	ChatbotLogical Reasoning	—Unverified
An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought	Jul 22, 2024	FormLogical Reasoning	—Unverified
A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and Probabilistic Decision Making	Feb 21, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
A New Algorithmic Decision for Categorical Syllogisms via Caroll's Diagrams	Feb 8, 2018	Logical Reasoningvalid	—Unverified
A New Fundamental Evidence of Non-Classical Structure in the Combination of Natural Concepts	May 19, 2015	Logical Reasoning	—Unverified
An Explainable Fast Deep Neural Network for Emotion Recognition	Jul 20, 2024	AttributeEmotion Classification	—Unverified
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs	Nov 27, 2024	Logical ReasoningSemantic Parsing	—Unverified
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning	Dec 19, 2022	Data AugmentationLanguage Modeling	—Unverified
A Probabilistic Model for Discriminative and Neuro-Symbolic Semi-Supervised Learning	Jun 10, 2020	Data AugmentationImage Augmentation	—Unverified
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games	Jul 5, 2024	Logical Reasoning	—Unverified
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding	Nov 12, 2023	Language ModelingLanguage Modelling	—Unverified
A Report on the llms evaluating the high school questions	Apr 30, 2025	Logical Reasoning	—Unverified
Argumentation Synthesis following Rhetorical Strategies	Aug 1, 2018	Argument MiningEthics	—Unverified
A separation logic for sequences in pointer programs and its decidability	Jan 16, 2023	Logical Reasoning	—Unverified
AS-ES Learning: Towards Efficient CoT Learning in Small Models	Mar 4, 2024	Data AugmentationLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 9 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified