Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 747 papers

Title	Date	Tasks	Status
TimeLogic: A Temporal Logic Benchmark for Video QA	Jan 13, 2025	2kAction Segmentation	—Unverified
Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning	Jan 13, 2025	Attributecounterfactual	—Unverified
Multimodal-to-Text Prompt Engineering in Large Language Models Using Feature Embeddings for GNSS Interference Characterization	Jan 9, 2025	Information RetrievalLogical Reasoning	—Unverified
Enhancing Transformers for Generalizable First-Order Logical Entailment	Jan 1, 2025	Logical ReasoningOut-of-Distribution Generalization	—Unverified
KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities	Dec 31, 2024	Common Sense ReasoningDocument-level Relation Extraction	—Unverified
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs	Dec 23, 2024	BenchmarkingLogical Reasoning	—Unverified
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework	Dec 22, 2024	Logical Reasoning	CodeCode Available
Formal Language Knowledge Corpus for Retrieval Augmented Generation	Dec 21, 2024	Logical ReasoningMathematical Proofs	—Unverified
Logical Consistency of Large Language Models in Fact-checking	Dec 20, 2024	Fact CheckingHallucination	—Unverified
SPHERE: A Hierarchical Evaluation on Spatial Perception and Reasoning for Vision-Language Models	Dec 17, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available
Reasoning-Aware Query-Focused Summarization over Multi-Table Data	Dec 12, 2024	Logical ReasoningQuery-focused Summarization	—Unverified
Federated In-Context LLM Agent Learning	Dec 11, 2024	Federated LearningIn-Context Learning	—Unverified
Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic	Dec 10, 2024	Logical Reasoning	—Unverified
Can OpenAI o1 outperform humans in higher-order cognitive thinking?	Dec 7, 2024	Logical Reasoning	—Unverified
Who Speaks Next? Multi-party AI Discussion Leveraging the Systematics of Turn-taking in Murder Mystery Games	Dec 6, 2024	Logical Reasoning	CodeCode Available
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM	Dec 5, 2024	counterfactualForm	—Unverified
Guidance is All You Need: Temperature-Guided Reasoning in Large Language Models	Dec 5, 2024	AllComputational Efficiency	—Unverified
Reverse Thinking Makes LLMs Stronger Reasoners	Nov 29, 2024	Data AugmentationKnowledge Distillation	—Unverified
SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment	Nov 27, 2024	ClassificationDecision Making	—Unverified
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs	Nov 27, 2024	Logical ReasoningSemantic Parsing	—Unverified
Learning for Long-Horizon Planning via Neuro-Symbolic Abductive Imitation	Nov 27, 2024	Imitation LearningLogical Reasoning	CodeCode Available
Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning	Nov 26, 2024	HallucinationLogical Reasoning	—Unverified
HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator	Nov 26, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
Object-centric proto-symbolic behavioural reasoning from pixels	Nov 26, 2024	continuous-controlContinuous Control	CodeCode Available
Interactive Visual Assessment for Text-to-Image Generation Models	Nov 23, 2024	Image GenerationLogical Reasoning	—Unverified
XAgents: A Framework for Interpretable Rule-Based Multi-Agents Cooperation	Nov 21, 2024	Feature CorrelationLogical Reasoning	—Unverified
Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning	Nov 18, 2024	Logical ReasoningMultiple-choice	—Unverified
Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm	Nov 16, 2024	Autonomous VehiclesDecision Making	—Unverified
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash	Nov 15, 2024	Logical Reasoning	CodeCode Available
Symbolic-AI-Fusion Deep Learning (SAIF-DL): Encoding Knowledge into Training with Answer Set Programming Loss Penalties by a Novel Loss Function Approach	Nov 13, 2024	Logical Reasoning	—Unverified
Building Trustworthy AI: Transparent AI Systems via Large Language Models, Ontologies, and Logical Reasoning (TranspNet)	Nov 13, 2024	Logical ReasoningRAG	—Unverified
OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?	Nov 9, 2024	Logical ReasoningMath	—Unverified
Knowledge Authoring with Factual English, Rules, and Actions	Nov 9, 2024	Logical Reasoning	—Unverified
How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis	Nov 6, 2024	Logical Reasoning	—Unverified
Formal Logic-guided Robust Federated Learning against Poisoning Attacks	Nov 5, 2024	Federated LearningFormal Logic	—Unverified
On Memorization of Large Language Models in Logical Reasoning	Oct 30, 2024	Logical ReasoningMemorization	—Unverified
Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach	Oct 29, 2024	Logical Reasoning	CodeCode Available
Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data	Oct 28, 2024	Logical Reasoningnamed-entity-recognition	—Unverified
Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs	Oct 26, 2024	DiagnosticLogical Reasoning	—Unverified
Aligning CodeLLMs with Direct Preference Optimization	Oct 24, 2024	Decision MakingHumanEval	—Unverified
LLM-Aided Efficient Hardware Design Automation	Oct 24, 2024	Code RepairLogical Reasoning	—Unverified
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks	Oct 24, 2024	Logical ReasoningMathematical Problem-Solving	—Unverified
MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures	Oct 20, 2024	Answer GenerationInformativeness	CodeCode Available
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified
Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation	Oct 19, 2024	FormLogical Reasoning	CodeCode Available
From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition	Oct 17, 2024	Language AcquisitionLogical Reasoning	CodeCode Available
Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval	Oct 16, 2024	Information RetrievalLogical Reasoning	—Unverified
"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities	Oct 16, 2024	Knowledge ProbingLogical Reasoning	—Unverified
Transformer-based Language Models for Reasoning in the Description Logic ALCQ	Oct 12, 2024	Logical Reasoning	—Unverified

Show:10 25 50

← PrevPage 7 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified