Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 747 papers

Title	Date	Tasks	Status
Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers	Jan 28, 2025	Logical Reasoning	—Unverified
Interactive Visual Assessment for Text-to-Image Generation Models	Nov 23, 2024	Image GenerationLogical Reasoning	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?	May 28, 2024	3D Object DetectionAutonomous Driving	—Unverified
Is ChatGPT a Good Personality Recognizer? A Preliminary Study	Jul 8, 2023	FairnessLogical Reasoning	—Unverified
Is writing style predictive of scientific fraud?	Sep 1, 2017	Logical Reasoning	—Unverified
Is writing style predictive of scientific fraud?	Jul 13, 2017	Logical Reasoning	—Unverified
JAMES: Normalizing Job Titles with Multi-Aspect Graph Embeddings and Reasoning	Feb 22, 2022	Logical ReasoningSemantic Similarity	—Unverified
Join-Chain Network: A Logical Reasoning View of the Multi-head Attention in Transformer	Oct 6, 2022	Logical ReasoningNatural Language Understanding	—Unverified
TAR: Neural Logical Reasoning across TBox and ABox	May 29, 2022	DescriptiveLogical Reasoning	—Unverified
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models	Sep 25, 2024	Fake News DetectionLanguage Modeling	—Unverified
KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
KGCompiler: Deep Learning Compilation Optimization for Knowledge Graph Complex Logical Query Answering	Mar 4, 2025	Knowledge GraphsLogical Reasoning	—Unverified
KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data	Oct 10, 2024	Anomaly DetectionFraud Detection	—Unverified
Knowledge Authoring for Rules and Actions	May 12, 2023	Logical Reasoning	—Unverified
Knowledge Authoring with Factual English, Rules, and Actions	Nov 9, 2024	Logical Reasoning	—Unverified
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork	Jun 1, 2023	Logical Reasoning	—Unverified
Knowledge Informed Semantic Parsing for Conversational Question Answering	Aug 1, 2021	Conversational Question AnsweringDecoder	—Unverified
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified
LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection	Apr 17, 2025	Anomaly DetectionLogical Reasoning	—Unverified
LAMBADA: Backward Chaining for Automated Reasoning in Natural Language	Dec 20, 2022	LAMBADALogical Reasoning	—Unverified
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified
Mathematical Reasoning via Self-supervised Skip-tree Training	Jun 8, 2020	Language ModelingLanguage Modelling	—Unverified
Language Models can be Logical Solvers	Nov 10, 2023	Decision MakingLanguage Modeling	—Unverified
Language to Rewards for Robotic Skill Synthesis	Jun 14, 2023	In-Context LearningLogical Reasoning	—Unverified
Large Language Model Enhanced Multi-Agent Systems for 6G Communications	Dec 13, 2023	Language ModelingLanguage Modelling	—Unverified
Large Language Models are Complex Table Parsers	Dec 13, 2023	Logical ReasoningQuestion Answering	—Unverified
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning	Feb 6, 2024	Logical ReasoningNegation	—Unverified
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence	Jun 12, 2023	Logical Reasoning	—Unverified
Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm	Nov 16, 2024	Autonomous VehiclesDecision Making	—Unverified
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions	Aug 16, 2024	DescriptiveHallucination	—Unverified
Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs	Feb 7, 2024	Logical Reasoning	—Unverified
Latent Feature Mining for Predictive Model Enhancement with Large Language Models	Oct 6, 2024	Logical Reasoning	—Unverified
LeafAI: query generator for clinical cohort discovery rivaling a human programmer	Apr 13, 2023	Logical Reasoningnamed-entity-recognition	—Unverified
Learning Distributed Word Representations for Natural Logic Reasoning	Oct 15, 2014	Logical ReasoningOpen-Ended Question Answering	—Unverified
Learning Guided Automated Reasoning: A Brief Survey	Mar 6, 2024	Automated Theorem ProvingLogical Reasoning	—Unverified
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing	Feb 1, 2024	HallucinationLogical Reasoning	—Unverified
Learning Reliable Logical Rules with SATNet	Oct 3, 2023	Logical Reasoning	—Unverified
Learning Syllogism with Euler Neural-Networks	Jul 14, 2020	Logical Reasoning	—Unverified
Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time	May 6, 2025	Computational EfficiencyDecision Making	—Unverified
"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities	Oct 16, 2024	Knowledge ProbingLogical Reasoning	—Unverified
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified
Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference	Aug 4, 2024	Logical ReasoningPrompt Engineering	—Unverified
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning	Jun 9, 2024	Code GenerationHierarchical Reinforcement Learning	—Unverified
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation	Aug 7, 2024	Logical ReasoningRecommendation Systems	—Unverified
LLM-Aided Efficient Hardware Design Automation	Oct 24, 2024	Code RepairLogical Reasoning	—Unverified
LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic	Jun 25, 2024	ARCLogical Reasoning	—Unverified
LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments	Aug 28, 2024	knowledge editingKnowledge Graphs	—Unverified
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image	Aug 14, 2024	Autonomous DrivingLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 13 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified