Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 747 papers

Title	Date	Tasks	Status
Compositional Distributional Cognition	Aug 12, 2016	Logical Reasoning	—Unverified
Consistent CCG Parsing over Multiple Sentences for Improved Logical Reasoning	Apr 19, 2018	Automated Theorem ProvingFormal Logic	—Unverified
Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes	Apr 18, 2025	Knowledge GraphsLogical Reasoning	—Unverified
Continuous Chain of Thought Enables Parallel Exploration and Reasoning	May 29, 2025	Logical Reasoning	—Unverified
Controlled Natural Languages and Default Reasoning	May 11, 2019	ImplicaturesLogical Reasoning	—Unverified
COOL: A Constraint Object-Oriented Logic Programming Language and its Neural-Symbolic Compilation System	Nov 7, 2023	Logical Reasoning	—Unverified
Counterfactual Collaborative Reasoning	Jun 30, 2023	counterfactualCounterfactual Reasoning	—Unverified
CP-Router: An Uncertainty-Aware Router Between LLM and LRM	May 26, 2025	Conformal PredictionLogical Reasoning	—Unverified
Curriculum Abductive Learning	May 18, 2025	Logical Reasoning	—Unverified
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
Data Science with Vadalog: Bridging Machine Learning and Reasoning	Jul 23, 2018	BIG-bench Machine LearningKnowledge Graphs	—Unverified
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL	Mar 6, 2025	Logical ReasoningNatural Language Queries	—Unverified
DBRouting: Routing End User Queries to Databases for Answerability	Jan 27, 2025	Logical ReasoningSemantic Parsing	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games	Dec 1, 2023	AI AgentIn-Context Learning	—Unverified
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models	May 23, 2023	Logical ReasoningStrategyQA	—Unverified
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback	Nov 21, 2023	Logical Reasoning	—Unverified
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model	Oct 4, 2024	DiversityLogical Reasoning	—Unverified
DetectGPT-SC: Improving Detection of Text Generated by Large Language Models through Self-Consistency with Masked Predictions	Oct 23, 2023	Logical ReasoningText Generation	—Unverified
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
Diagnosing the First-Order Logical Reasoning Ability Through LogicNLI	Nov 1, 2021	DiagnosticLogical Reasoning	—Unverified
Dialogue-based Explanations for Logical Reasoning using Structured Argumentation	Feb 16, 2025	Logical Reasoning	—Unverified
Discourse-Aware Graph Networks for Textual Logical Reasoning	Jul 4, 2022	graph constructionLogical Reasoning	—Unverified
Discrete JEPA: Learning Discrete Token Representations without Reconstruction	Jun 17, 2025	Logical Reasoning	—Unverified
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning	May 22, 2024	Code GenerationInstruction Following	—Unverified
DMWM: Dual-Mind World Model with Long-Term Imagination	Feb 11, 2025	Logical Reasoning	—Unverified
Does Entity Abstraction Help Generative Transformers Reason?	Jan 5, 2022	Conversational Question AnsweringLogical Reasoning	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified
Do Large Language Models Understand Logic or Just Mimick Context?	Feb 19, 2024	counterfactualIn-Context Learning	—Unverified
Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation	Dec 26, 2023	HallucinationIn-Context Learning	—Unverified
DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks	Sep 29, 2023	Logical Reasoning	—Unverified
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified
Efficient Training and Inference of Hypergraph Reasoning Networks	Sep 29, 2021	Knowledge GraphsLogical Reasoning	—Unverified
Emergent Symbols through Binding in External Memory	Jan 17, 2022	Logical Reasoning	—Unverified
Emotion Recognition in Conversation using Probabilistic Soft Logic	Jul 14, 2022	Emotion RecognitionEmotion Recognition in Conversation	—Unverified
Empowering LLMs with Logical Reasoning: A Comprehensive Survey	Feb 21, 2025	Logical ReasoningNegation	—Unverified
Enhanced User Interaction in Operating Systems through Machine Learning Language Models	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
Enhancing Large Language Model Efficiencyvia Symbolic Compression: A Formal Approach Towards Interpretability	Jan 30, 2025	Code GenerationLanguage Modeling	—Unverified
Enhancing Logical Reasoning in Large Language Models to Facilitate Legal Applications	Nov 22, 2023	FairnessLegal Reasoning	—Unverified
Enhancing Neural Mathematical Reasoning by Abductive Combination with Symbolic Library	Mar 28, 2022	Logical ReasoningMathematical Reasoning	—Unverified
Enhancing Retrieval Systems with Inference-Time Logical Reasoning	Mar 22, 2025	Computational EfficiencyLogical Reasoning	—Unverified
Enhancing Transformers for Generalizable First-Order Logical Entailment	Jan 1, 2025	Logical ReasoningOut-of-Distribution Generalization	—Unverified
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles	May 26, 2025	ARCLogical Reasoning	—Unverified
Evaluating Large Language Models with NeuBAROCO: Syllogistic Reasoning Ability and Human-like Biases	Jun 21, 2023	Logical Reasoning	—Unverified
Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions	Nov 5, 2023	Logical ReasoningMultiple-choice	—Unverified
Evident: a Development Methodology and a Knowledge Base Topology for Data Mining, Machine Learning and General Knowledge Management	Nov 9, 2022	General KnowledgeLogical Reasoning	—Unverified
Explainability Is in the Mind of the Beholder: Establishing the Foundations of Explainable Artificial Intelligence	Dec 29, 2021	BIG-bench Machine LearningExplainable artificial intelligence	—Unverified
Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks	Jun 4, 2024	Code GenerationLogical Reasoning	—Unverified
Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval	Oct 16, 2024	Information RetrievalLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 11 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified