Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 747 papers

Title	Date	Tasks	Status
Town Hall Debate Prompting: Enhancing Logical Reasoning in LLMs through Multi-Persona Interaction	Jan 28, 2025	Logical ReasoningMultiple-choice	—Unverified
Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs	Feb 17, 2025	In-Context LearningLogical Reasoning	—Unverified
Transformer-based Language Models for Reasoning in the Description Logic ALCQ	Oct 12, 2024	Logical Reasoning	—Unverified
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests	Feb 20, 2025	Logical ReasoningMMLU	—Unverified
Truth Table Deep Convolutional Neural Network, A New SAT-Encodable Architecture - Application To Complete Robustness	Sep 29, 2021	Explainable Artificial Intelligence (XAI)Explanation Generation	—Unverified
A Scalable, Interpretable, Verifiable & Differentiable Logic Gate Convolutional Neural Network Architecture From Truth Tables	Aug 18, 2022	FairnessLogical Reasoning	—Unverified
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games	Jun 11, 2025	Logical ReasoningMath	—Unverified
Type-dependent Prompt CycleQAG : Cycle Consistency for Multi-hop Question Generation	Oct 1, 2022	Answer GenerationLogical Reasoning	—Unverified
Unifying Neural Learning and Symbolic Reasoning for Spinal Medical Report Generation	Apr 28, 2020	Decision MakingGenerative Adversarial Network	—Unverified
Unifying Structure Reasoning and Language Model Pre-training for Complex Reasoning	Jan 21, 2023	Language ModelingLanguage Modelling	—Unverified
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator	Sep 14, 2024	Logical ReasoningRecommendation Systems	—Unverified
Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring	Jul 4, 2024	Logical Reasoning	—Unverified
VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning	Jan 24, 2025	Logical Reasoning	—Unverified
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models	Mar 29, 2025	Logical Reasoning	—Unverified
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving	Sep 16, 2024	Autonomous DrivingLogical Reasoning	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified
Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation	Sep 30, 2024	Logical ReasoningMisinformation	—Unverified
What is the Title of this Paper? Solving logic puzzles using algorithms	Jun 30, 2023	Logical Reasoning	—Unverified
What Makes Machine Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Nov 16, 2021	Logical ReasoningMachine Reading Comprehension	—Unverified
What Makes Reading Comprehension Questions Difficult? Investigating Variation in Passage Sources and Question Types	Sep 17, 2021	Logical ReasoningMultiple-choice	—Unverified
Why should we ever automate moral decision making?	Jul 10, 2024	Decision MakingEthics	—Unverified
XAgents: A Framework for Interpretable Rule-Based Multi-Agents Cooperation	Nov 21, 2024	Feature CorrelationLogical Reasoning	—Unverified
WatME: Towards Lossless Watermarking Through Lexical Redundancy	Nov 16, 2023	Instruction FollowingLanguage Modelling	—Unverified
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning	Feb 3, 2025	Logical Reasoning	—Unverified
Logic Pre-Training of Language Models	Sep 29, 2021	Logical ReasoningMachine Reading Comprehension	—Unverified
LogicTree: Structured Proof Exploration for Coherent and Rigorous Logical Reasoning with Large Language Models	Apr 18, 2025	Logical Reasoning	—Unverified
LogiGAN: Learning Logical Reasoning via Adversarial Pre-training	May 18, 2022	Logical ReasoningSentence	—Unverified
LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning Capabilities for NLI	Dec 4, 2021	Logical ReasoningNatural Language Inference	—Unverified
Lp : A Logic for Statistical Information	Mar 27, 2013	Bayesian InferenceLogical Reasoning	—Unverified
Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning	Feb 24, 2025	In-Context LearningLogical Reasoning	—Unverified
MANGO: Enhancing the Robustness of VQA Models via Adversarial Noise Generation	Jan 16, 2022	Logical ReasoningQuestion Answering	—Unverified
Mapping Ontologies Using Ontologies: Cross-lingual Semantic Role Information Transfer	May 1, 2016	Logical Reasoning	—Unverified
MARCO: Meta-Reflection with Cross-Referencing for Code Reasoning	May 23, 2025	Logical Reasoning	—Unverified
MathDivide: Improved mathematical reasoning by large language models	May 12, 2024	GSM8KLogical Reasoning	—Unverified
Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning	Nov 26, 2024	HallucinationLogical Reasoning	—Unverified
Medical idioms for clinical Bayesian network development	Jul 1, 2020	counterfactualCounterfactual Reasoning	—Unverified
MediSee: Reasoning-based Pixel-level Perception in Medical Images	Apr 15, 2025	Logical ReasoningReasoning Segmentation	—Unverified
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization	May 23, 2023	In-Context LearningLanguage Modeling	—Unverified
MetaReflection: Learning Instructions for Language Agents using Past Reflections	May 13, 2024	Logical ReasoningQuestion Answering	—Unverified
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning	May 20, 2025	Logical ReasoningMathematical Reasoning	—Unverified
Mixed Logical and Probabilistic Reasoning for Planning and Explanation Generation in Robotics	Aug 1, 2015	Explanation GenerationLogical Reasoning	—Unverified
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified
Modeling Associative Reasoning Processes	Jan 3, 2022	Logical Reasoning	—Unverified
CogReact: A Reinforced Framework to Model Human Cognitive Reaction Modulated by Dynamic Intervention	Jan 15, 2023	Deep Reinforcement LearningLogical Reasoning	—Unverified
Modeling Human Decision-making: An Overview of the Brussels Quantum Approach	Jul 29, 2018	Decision MakingLogical Reasoning	—Unverified
Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM	Dec 5, 2024	counterfactualForm	—Unverified
MUC-driven Feature Importance Measurement and Adversarial Analysis for Random Forest	Feb 25, 2022	Feature ImportanceLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 12 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified