Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 747 papers

Title	Date	Tasks	Status
Why should we ever automate moral decision making?	Jul 10, 2024	Decision MakingEthics	—Unverified
Analyzing Large language models chatbots: An experimental approach using a probability test	Jul 10, 2024	ChatbotLogical Reasoning	—Unverified
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games	Jul 5, 2024	Logical Reasoning	—Unverified
Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring	Jul 4, 2024	Logical Reasoning	—Unverified
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts	Jun 27, 2024	Decision MakingLogical Reasoning	—Unverified
Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism	Jun 26, 2024	Logical Reasoning	—Unverified
LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic	Jun 25, 2024	ARCLogical Reasoning	—Unverified
Large Language Models Are Cross-Lingual Knowledge-Free Reasoners	Jun 24, 2024	Cross-Lingual TransferLogical Reasoning	CodeCode Available
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models	Jun 24, 2024	Logical ReasoningNatural Language Understanding	CodeCode Available
Imperative Learning: A Self-supervised Neuro-Symbolic Learning Framework for Robot Autonomy	Jun 23, 2024	Bilevel OptimizationImitation Learning	—Unverified
Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference	Jun 21, 2024	Logical Reasoning	—Unverified
Pathformer: Recursive Path Query Encoding for Complex Logical Query Answering	Jun 21, 2024	Knowledge GraphsLogical Reasoning	—Unverified
The neural correlates of logical-mathematical symbol systems processing resemble that of spatial cognition more than natural language processing	Jun 20, 2024	Logical Reasoning	—Unverified
Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models	Jun 18, 2024	Logical Reasoning	CodeCode Available
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified
Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars	Jun 16, 2024	Automated Theorem ProvingLogical Reasoning	CodeCode Available
City-LEO: Toward Transparent City Management Using LLM with End-to-End Optimization	Jun 16, 2024	Language ModellingLarge Language Model	—Unverified
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam	Jun 14, 2024	FairnessLogical Reasoning	CodeCode Available
Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?	Jun 11, 2024	Autonomous DrivingDeep Learning	CodeCode Available
Large Language Models are Limited in Out-of-Context Knowledge Reasoning	Jun 11, 2024	AttributeLogical Reasoning	CodeCode Available
Improving Multi-hop Logical Reasoning in Knowledge Graphs with Context-Aware Query Representation Learning	Jun 11, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages	Jun 10, 2024	Logical Reasoning	CodeCode Available
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning	Jun 9, 2024	Code GenerationHierarchical Reinforcement Learning	—Unverified
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified
On the Hardness of Probabilistic Neurosymbolic Learning	Jun 6, 2024	Logical Reasoning	CodeCode Available
How Truncating Weights Improves Reasoning in Language Models	Jun 5, 2024	Logical Reasoning	—Unverified
Bi-Chainer: Automated Large Language Models Reasoning with Bidirectional Chaining	Jun 5, 2024	Logical Reasoning	—Unverified
Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks	Jun 4, 2024	Code GenerationLogical Reasoning	—Unverified
Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities	Jun 4, 2024	Language ModelingLanguage Modelling	CodeCode Available
A Synergistic Approach In Network Intrusion Detection By Neurosymbolic AI	Jun 3, 2024	Intrusion DetectionLogical Reasoning	—Unverified
Logical Reasoning with Relation Network for Inductive Knowledge Graph Completion	Jun 3, 2024	Inductive knowledge graph completionKnowledge Graph Completion	—Unverified
Brainstorming Brings Power to Large Language Models of Knowledge Reasoning	Jun 2, 2024	Logical ReasoningReading Comprehension	—Unverified
A Closer Look at Logical Reasoning with LLMs: The Choice of Tool Matters	Jun 1, 2024	Logical ReasoningTranslation	CodeCode Available
PathReasoner: Modeling Reasoning Path with Equivalent Extension for Logical Question Answering	May 29, 2024	DiversityLogical Reasoning	—Unverified
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?	May 28, 2024	3D Object DetectionAutonomous Driving	—Unverified
RLSF: Reinforcement Learning via Symbolic Feedback	May 26, 2024	Logical ReasoningNatural Language Understanding	—Unverified
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning	May 22, 2024	Code GenerationInstruction Following	—Unverified
LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs	May 21, 2024	Logical Reasoning	—Unverified
STAR: A Benchmark for Situated Reasoning in Real-World Videos	May 15, 2024	DiagnosticLogical Reasoning	—Unverified
MetaReflection: Learning Instructions for Language Agents using Past Reflections	May 13, 2024	Logical ReasoningQuestion Answering	—Unverified
MathDivide: Improved mathematical reasoning by large language models	May 12, 2024	GSM8KLogical Reasoning	—Unverified
Logical Negation Augmenting and Debiasing for Prompt-based Methods	May 8, 2024	Logical ReasoningNegation	—Unverified
Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics	May 7, 2024	Logical Reasoning	CodeCode Available
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning	May 2, 2024	Knowledge GraphsLogical Reasoning	—Unverified
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications	Apr 29, 2024	Computational EfficiencyLogical Reasoning	—Unverified
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM	Apr 24, 2024	Decision MakingLogical Reasoning	—Unverified
Aligning Knowledge Graphs Provided by Humans and Generated from Neural Networks in Specific Tasks	Apr 23, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding	Apr 4, 2024	Logical FallaciesLogical Reasoning	—Unverified
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues	Apr 4, 2024	ChatbotInstruction Following	—Unverified

Show:10 25 50

← PrevPage 9 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified