Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 747 papers

Title	Date	Tasks	Status	Hype
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified	0
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning	Dec 31, 2024	BenchmarkingLogical Reasoning	CodeCode Available	4
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified	0
A Survey on Large Language Model Acceleration based on KV Cache Management	Dec 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation	Dec 24, 2024	Graph Question AnsweringHallucination	CodeCode Available	1
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs	Dec 23, 2024	BenchmarkingLogical Reasoning	—Unverified	0
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework	Dec 22, 2024	Logical Reasoning	CodeCode Available	0
Formal Language Knowledge Corpus for Retrieval Augmented Generation	Dec 21, 2024	Logical ReasoningMathematical Proofs	—Unverified	0
Logical Consistency of Large Language Models in Fact-checking	Dec 20, 2024	Fact CheckingHallucination	—Unverified	0
SPHERE: A Hierarchical Evaluation on Spatial Perception and Reasoning for Vision-Language Models	Dec 17, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available	0
WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model	Dec 13, 2024	Autonomous DrivingDecision Making	CodeCode Available	1
Reasoning-Aware Query-Focused Summarization over Multi-Table Data	Dec 12, 2024	Logical ReasoningQuery-focused Summarization	—Unverified	0
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios	Dec 12, 2024	Logical ReasoningLong-Context Understanding	CodeCode Available	1
Federated In-Context LLM Agent Learning	Dec 11, 2024	Federated LearningIn-Context Learning	—Unverified	0
Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic	Dec 10, 2024	Logical Reasoning	—Unverified	0
FlashRNN: Optimizing Traditional RNNs on Modern Hardware	Dec 10, 2024	GPULogical Reasoning	CodeCode Available	2
Training Large Language Models to Reason in a Continuous Latent Space	Dec 9, 2024	Logical Reasoning	CodeCode Available	5
Can OpenAI o1 outperform humans in higher-order cognitive thinking?	Dec 7, 2024	Logical Reasoning	—Unverified	0
Who Speaks Next? Multi-party AI Discussion Leveraging the Systematics of Turn-taking in Murder Mystery Games	Dec 6, 2024	Logical Reasoning	CodeCode Available	0
Guidance is All You Need: Temperature-Guided Reasoning in Large Language Models	Dec 5, 2024	AllComputational Efficiency	—Unverified	0
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM	Dec 5, 2024	counterfactualForm	—Unverified	0
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression	Dec 4, 2024	2kLogical Reasoning	CodeCode Available	1
Reverse Thinking Makes LLMs Stronger Reasoners	Nov 29, 2024	Data AugmentationKnowledge Distillation	—Unverified	0
SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment	Nov 27, 2024	ClassificationDecision Making	—Unverified	0
Learning for Long-Horizon Planning via Neuro-Symbolic Abductive Imitation	Nov 27, 2024	Imitation LearningLogical Reasoning	CodeCode Available	0
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs	Nov 27, 2024	Logical ReasoningSemantic Parsing	—Unverified	0
Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning	Nov 26, 2024	HallucinationLogical Reasoning	—Unverified	0
HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator	Nov 26, 2024	Common Sense ReasoningLogical Reasoning	—Unverified	0
Object-centric proto-symbolic behavioural reasoning from pixels	Nov 26, 2024	continuous-controlContinuous Control	CodeCode Available	0
Interactive Visual Assessment for Text-to-Image Generation Models	Nov 23, 2024	Image GenerationLogical Reasoning	—Unverified	0
XAgents: A Framework for Interpretable Rule-Based Multi-Agents Cooperation	Nov 21, 2024	Feature CorrelationLogical Reasoning	—Unverified	0
Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus	Nov 19, 2024	Formal LogicLogical Reasoning	CodeCode Available	2
Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning	Nov 18, 2024	Logical ReasoningMultiple-choice	—Unverified	0
Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm	Nov 16, 2024	Autonomous VehiclesDecision Making	—Unverified	0
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash	Nov 15, 2024	Logical Reasoning	CodeCode Available	0
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step	Nov 15, 2024	Logical ReasoningMultimodal Reasoning	CodeCode Available	7
Building Trustworthy AI: Transparent AI Systems via Large Language Models, Ontologies, and Logical Reasoning (TranspNet)	Nov 13, 2024	Logical ReasoningRAG	—Unverified	0
Symbolic-AI-Fusion Deep Learning (SAIF-DL): Encoding Knowledge into Training with Answer Set Programming Loss Penalties by a Novel Loss Function Approach	Nov 13, 2024	Logical Reasoning	—Unverified	0
Knowledge Authoring with Factual English, Rules, and Actions	Nov 9, 2024	Logical Reasoning	—Unverified	0
OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?	Nov 9, 2024	Logical ReasoningMath	—Unverified	0
How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis	Nov 6, 2024	Logical Reasoning	—Unverified	0
Formal Logic-guided Robust Federated Learning against Poisoning Attacks	Nov 5, 2024	Federated LearningFormal Logic	—Unverified	0
The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units	Nov 4, 2024	Logical Reasoning	CodeCode Available	1
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent	Nov 4, 2024	Logical ReasoningMathematical Problem-Solving	CodeCode Available	5
LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation	Nov 1, 2024	Logical ReasoningSequential Decision Making	CodeCode Available	1
On Memorization of Large Language Models in Logical Reasoning	Oct 30, 2024	Logical ReasoningMemorization	—Unverified	0
Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach	Oct 29, 2024	Logical Reasoning	CodeCode Available	0
Neuro-symbolic Learning Yielding Logical Constraints	Oct 28, 2024	Logical Reasoning	CodeCode Available	1
Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data	Oct 28, 2024	Logical Reasoningnamed-entity-recognition	—Unverified	0
Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs	Oct 26, 2024	DiagnosticLogical Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 4 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified