Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 747 papers

Title	Date	Tasks	Status
Learning Syllogism with Euler Neural-Networks	Jul 14, 2020	Logical Reasoning	—Unverified
Bayesian Entailment Hypothesis: How Brains Implement Monotonic and Non-monotonic Reasoning	May 3, 2020	Logical ReasoningRelation	—Unverified
TAR: Neural Logical Reasoning across TBox and ABox	May 29, 2022	DescriptiveLogical Reasoning	—Unverified
Learning Reliable Logical Rules with SATNet	Oct 3, 2023	Logical Reasoning	—Unverified
Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time	May 6, 2025	Computational EfficiencyDecision Making	—Unverified
"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities	Oct 16, 2024	Knowledge ProbingLogical Reasoning	—Unverified
A New Fundamental Evidence of Non-Classical Structure in the Combination of Natural Concepts	May 19, 2015	Logical Reasoning	—Unverified
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding	Mar 2, 2024	Logical ReasoningNegation	—Unverified
Learning Distributed Word Representations for Natural Logic Reasoning	Oct 15, 2014	Logical ReasoningOpen-Ended Question Answering	—Unverified
Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games	Dec 1, 2023	AI AgentIn-Context Learning	—Unverified
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified
An Explainable Fast Deep Neural Network for Emotion Recognition	Jul 20, 2024	AttributeEmotion Classification	—Unverified
Learning Guided Automated Reasoning: A Brief Survey	Mar 6, 2024	Automated Theorem ProvingLogical Reasoning	—Unverified
Axiom Learning and Belief Tracing for Transparent Decision Making in Robotics	Oct 20, 2020	Decision MakingLogical Reasoning	—Unverified
Interactive Visual Assessment for Text-to-Image Generation Models	Nov 23, 2024	Image GenerationLogical Reasoning	—Unverified
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL	Mar 6, 2025	Logical ReasoningNatural Language Queries	—Unverified
Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers	Jan 28, 2025	Logical Reasoning	—Unverified
Autoregressive Image Generation Guided by Chains of Thought	Feb 24, 2025	Image GenerationLogical Reasoning	—Unverified
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified
Data Science with Vadalog: Bridging Machine Learning and Reasoning	Jul 23, 2018	BIG-bench Machine LearningKnowledge Graphs	—Unverified
LeafAI: query generator for clinical cohort discovery rivaling a human programmer	Apr 13, 2023	Logical Reasoningnamed-entity-recognition	—Unverified
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing	Feb 1, 2024	HallucinationLogical Reasoning	—Unverified
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified
Inferring User Preferences by Probabilistic Logical Reasoning over Social Networks	Nov 11, 2014	AttributeLogical Reasoning	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
DBRouting: Routing End User Queries to Databases for Answerability	Jan 27, 2025	Logical ReasoningSemantic Parsing	—Unverified
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?	May 28, 2024	3D Object DetectionAutonomous Driving	—Unverified
Is ChatGPT a Good Personality Recognizer? A Preliminary Study	Jul 8, 2023	FairnessLogical Reasoning	—Unverified
Is writing style predictive of scientific fraud?	Sep 1, 2017	Logical Reasoning	—Unverified
Is writing style predictive of scientific fraud?	Jul 13, 2017	Logical Reasoning	—Unverified
JAMES: Normalizing Job Titles with Multi-Aspect Graph Embeddings and Reasoning	Feb 22, 2022	Logical ReasoningSemantic Similarity	—Unverified
Join-Chain Network: A Logical Reasoning View of the Multi-head Attention in Transformer	Oct 6, 2022	Logical ReasoningNatural Language Understanding	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models	Sep 25, 2024	Fake News DetectionLanguage Modeling	—Unverified
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models	May 23, 2023	Logical ReasoningStrategyQA	—Unverified
KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
Curriculum Abductive Learning	May 18, 2025	Logical Reasoning	—Unverified
KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data	Oct 10, 2024	Anomaly DetectionFraud Detection	—Unverified
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks	Oct 24, 2024	Logical ReasoningMathematical Problem-Solving	—Unverified
Knowledge Authoring with Factual English, Rules, and Actions	Nov 9, 2024	Logical Reasoning	—Unverified
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs	Feb 4, 2025	Formal LogicKnowledge Graphs	—Unverified
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning	May 2, 2024	Knowledge GraphsLogical Reasoning	—Unverified
Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm	Nov 16, 2024	Autonomous VehiclesDecision Making	—Unverified
Knowledge Informed Semantic Parsing for Conversational Question Answering	Aug 1, 2021	Conversational Question AnsweringDecoder	—Unverified
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions	Aug 16, 2024	DescriptiveHallucination	—Unverified
Improving Coherence and Consistency in Neural Sequence Models with Dual-System, Neuro-Symbolic Reasoning	Jul 6, 2021	Instruction FollowingLogical Reasoning	—Unverified
LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection	Apr 17, 2025	Anomaly DetectionLogical Reasoning	—Unverified
Automated Theorem Provers Help Improve Large Language Model Reasoning	Aug 7, 2024	Formal LogicLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 7 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified