Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 747 papers

Title	Date	Tasks	Status
HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator	Nov 26, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks	Mar 6, 2025	ChatbotLogical Reasoning	—Unverified
HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation	Apr 19, 2025	Explainable RecommendationLogical Reasoning	—Unverified
HopRAG: Multi-Hop Reasoning for Logic-Aware Retrieval-Augmented Generation	Feb 18, 2025	Logical ReasoningRAG	—Unverified
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs	Mar 3, 2025	Logical ReasoningReading Comprehension	—Unverified
How to Make a BLT Sandwich? Learning to Reason towards Understanding Web Instructional Videos	Dec 2, 2018	Logical ReasoningQuestion Answering	—Unverified
How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis	Nov 6, 2024	Logical Reasoning	—Unverified
How Truncating Weights Improves Reasoning in Language Models	Jun 5, 2024	Logical Reasoning	—Unverified
Human Comprehensible Active Learning of Genome-Scale Metabolic Networks	Aug 24, 2023	Active LearningExperimental Design	—Unverified
Human-in-the-Loop through Chain-of-Thought	Jun 10, 2023	Logical Reasoning	—Unverified
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking	May 5, 2025	Logical Reasoning	—Unverified
HypoML: Visual Analysis for Hypothesis-based Evaluation of Machine Learning Models	Feb 12, 2020	BIG-bench Machine LearningLogical Reasoning	—Unverified
Identifying Features that Shape Perceived Consciousness in Large Language Model-based AI: A Quantitative Study of Human Responses	Feb 21, 2025	Language ModelingLanguage Modelling	—Unverified
I-Design: Personalized LLM Interior Designer	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified
Imperative Learning: A Self-supervised Neuro-Symbolic Learning Framework for Robot Autonomy	Jun 23, 2024	Bilevel OptimizationImitation Learning	—Unverified
Improving Coherence and Consistency in Neural Sequence Models with Dual-System, Neuro-Symbolic Reasoning	Jul 6, 2021	Instruction FollowingLogical Reasoning	—Unverified
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning	May 2, 2024	Knowledge GraphsLogical Reasoning	—Unverified
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks	Oct 24, 2024	Logical ReasoningMathematical Problem-Solving	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Inferring User Preferences by Probabilistic Logical Reasoning over Social Networks	Nov 11, 2014	AttributeLogical Reasoning	—Unverified
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified
Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers	Jan 28, 2025	Logical Reasoning	—Unverified
Interactive Visual Assessment for Text-to-Image Generation Models	Nov 23, 2024	Image GenerationLogical Reasoning	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
CogReact: A Reinforced Framework to Model Human Cognitive Reaction Modulated by Dynamic Intervention	Jan 15, 2023	Deep Reinforcement LearningLogical Reasoning	—Unverified
Modeling Human Decision-making: An Overview of the Brussels Quantum Approach	Jul 29, 2018	Decision MakingLogical Reasoning	—Unverified
Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM	Dec 5, 2024	counterfactualForm	—Unverified
MUC-driven Feature Importance Measurement and Adversarial Analysis for Random Forest	Feb 25, 2022	Feature ImportanceLogical Reasoning	—Unverified
Multimodal-to-Text Prompt Engineering in Large Language Models Using Feature Embeddings for GNSS Interference Characterization	Jan 9, 2025	Information RetrievalLogical Reasoning	—Unverified
Multi-source Meta Transfer for Low Resource Multiple-Choice Question Answering	Jul 1, 2020	Domain AdaptationLogical Reasoning	—Unverified
Multi-Stage Retrieval for Operational Technology Cybersecurity Compliance Using Large Language Models: A Railway Casestudy	Apr 18, 2025	HallucinationLogical Reasoning	—Unverified
Multi-Step Inference for Reasoning Over Paragraphs	Apr 6, 2020	Logical Reasoning	—Unverified
NAIL: A Challenging Benchmark for Na\"ive Logical Reasoning	Sep 29, 2021	Logical Reasoning	—Unverified
Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs	Mar 20, 2024	Logical ReasoningPrompt Engineering	—Unverified
Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models	Feb 16, 2024	In-Context LearningLanguage Modeling	—Unverified
Negation: A Pink Elephant in the Large Language Models' Room?	Mar 28, 2025	Language ModelingLanguage Modelling	—Unverified
Neural Logic Analogy Learning	Feb 4, 2022	Logical Reasoning	—Unverified
Neural Logic Networks	Oct 17, 2019	Collaborative FilteringLogical Reasoning	—Unverified
Neural Networks and Continuous Time	Jun 14, 2016	General ClassificationLogical Reasoning	—Unverified
Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning	Jan 13, 2025	Attributecounterfactual	—Unverified
Neural Tensor Networks with Diagonal Slice Matrices	Jun 1, 2018	Knowledge Graph CompletionLogical Reasoning	—Unverified
Neurosymbolic AI: The 3rd Wave	Dec 10, 2020	Logical Reasoning	—Unverified
Neuro-Symbolic Spatio-Temporal Reasoning	Nov 28, 2022	AI AgentImage Segmentation	—Unverified
New Directions in Vector Space Models of Meaning	Jun 1, 2014	Document ClassificationLanguage Modelling	—Unverified
Non-monotonic Logical Reasoning Guiding Deep Learning for Explainable Visual Question Answering	Sep 23, 2019	Inductive LearningLogical Reasoning	—Unverified
Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained language models	May 25, 2023	Logical ReasoningWord Embeddings	—Unverified
Object-Oriented Dynamic Networks	Oct 14, 2015	Logical ReasoningObject	—Unverified
Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction	Nov 24, 2021	Logical ReasoningVideo Prediction	—Unverified
On Memorization of Large Language Models in Logical Reasoning	Oct 30, 2024	Logical ReasoningMemorization	—Unverified

Show:10 25 50

← PrevPage 9 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified