Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 747 papers

Title	Date	Tasks	Status	Hype
Improving Multi-hop Logical Reasoning in Knowledge Graphs with Context-Aware Query Representation Learning	Jun 11, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available	0
Large Language Models are Limited in Out-of-Context Knowledge Reasoning	Jun 11, 2024	AttributeLogical Reasoning	CodeCode Available	0
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages	Jun 10, 2024	Logical Reasoning	CodeCode Available	0
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples	Jun 9, 2024	ARCDiversity	CodeCode Available	2
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning	Jun 9, 2024	Code GenerationHierarchical Reinforcement Learning	—Unverified	0
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified	0
LogiCode: an LLM-Driven Framework for Logical Anomaly Detection	Jun 7, 2024	Anomaly DetectionBinary Classification	CodeCode Available	1
On the Hardness of Probabilistic Neurosymbolic Learning	Jun 6, 2024	Logical Reasoning	CodeCode Available	0
Evaluating the World Model Implicit in a Generative Model	Jun 6, 2024	Logical Reasoningmodel	CodeCode Available	2
Bi-Chainer: Automated Large Language Models Reasoning with Bidirectional Chaining	Jun 5, 2024	Logical Reasoning	—Unverified	0
How Truncating Weights Improves Reasoning in Language Models	Jun 5, 2024	Logical Reasoning	—Unverified	0
Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks	Jun 4, 2024	Code GenerationLogical Reasoning	—Unverified	0
Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities	Jun 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
A Synergistic Approach In Network Intrusion Detection By Neurosymbolic AI	Jun 3, 2024	Intrusion DetectionLogical Reasoning	—Unverified	0
Logical Reasoning with Relation Network for Inductive Knowledge Graph Completion	Jun 3, 2024	Inductive knowledge graph completionKnowledge Graph Completion	—Unverified	0
Brainstorming Brings Power to Large Language Models of Knowledge Reasoning	Jun 2, 2024	Logical ReasoningReading Comprehension	—Unverified	0
A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters	Jun 1, 2024	Logical ReasoningTranslation	CodeCode Available	0
Easy Problems That LLMs Get Wrong	May 30, 2024	Common Sense ReasoningLogical Reasoning	CodeCode Available	2
PathReasoner: Modeling Reasoning Path with Equivalent Extension for Logical Question Answering	May 29, 2024	DiversityLogical Reasoning	—Unverified	0
Faithful Logical Reasoning via Symbolic Chain-of-Thought	May 28, 2024	Logical Reasoning	CodeCode Available	3
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?	May 28, 2024	3D Object DetectionAutonomous Driving	—Unverified	0
RLSF: Reinforcement Learning via Symbolic Feedback	May 26, 2024	Logical ReasoningNatural Language Understanding	—Unverified	0
Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving	May 24, 2024	Autonomous DrivingDecision Making	CodeCode Available	2
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning	May 22, 2024	Code GenerationInstruction Following	—Unverified	0
LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs	May 21, 2024	Logical Reasoning	—Unverified	0
STAR: A Benchmark for Situated Reasoning in Real-World Videos	May 15, 2024	DiagnosticLogical Reasoning	—Unverified	0
MetaReflection: Learning Instructions for Language Agents using Past Reflections	May 13, 2024	Logical ReasoningQuestion Answering	—Unverified	0
MathDivide: Improved mathematical reasoning by large language models	May 12, 2024	GSM8KLogical Reasoning	—Unverified	0
Logical Negation Augmenting and Debiasing for Prompt-based Methods	May 8, 2024	Logical ReasoningNegation	—Unverified	0
Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics	May 7, 2024	Logical Reasoning	CodeCode Available	0
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning	May 2, 2024	Knowledge GraphsLogical Reasoning	—Unverified	0
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications	Apr 29, 2024	Computational EfficiencyLogical Reasoning	—Unverified	0
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified	0
Aligning Knowledge Graphs Provided by Humans and Generated from Neural Networks in Specific Tasks	Apr 23, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available	0
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models	Apr 23, 2024	Logical ReasoningQuestion Answering	CodeCode Available	1
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified	0
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems	Apr 6, 2024	Logical ReasoningMath	CodeCode Available	2
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues	Apr 4, 2024	ChatbotInstruction Following	—Unverified	0
Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding	Apr 4, 2024	Logical FallaciesLogical Reasoning	—Unverified	0
I-Design: Personalized LLM Interior Designer	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified	0
Language Model Guided Interpretable Video Action Reasoning	Apr 2, 2024	Action RecognitionDecision Making	CodeCode Available	0
Advancing LLM Reasoning Generalists with Preference Trees	Apr 2, 2024	BenchmarkingCode Generation	CodeCode Available	3
Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections	Mar 29, 2024	Logical Reasoning	CodeCode Available	0
Sphere Neural-Networks for Rational Reasoning	Mar 22, 2024	HallucinationLogical Reasoning	—Unverified	0
LeanReasoner: Boosting Complex Logical Reasoning with Lean	Mar 20, 2024	Automated Theorem ProvingLogical Reasoning	CodeCode Available	1
Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs	Mar 20, 2024	Logical ReasoningPrompt Engineering	—Unverified	0
Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts	Mar 17, 2024	Language ModelingLanguage Modelling	—Unverified	0
Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations	Mar 12, 2024	Decision MakingLogical Reasoning	CodeCode Available	0
Learning Guided Automated Reasoning: A Brief Survey	Mar 6, 2024	Automated Theorem ProvingLogical Reasoning	—Unverified	0
Fuzzy Datalog^ over Arbitrary t-Norms	Mar 5, 2024	Knowledge GraphsLogical Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 7 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified