Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 747 papers

Title	Date	Tasks	Status	Hype
HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation	Apr 19, 2025	Explainable RecommendationLogical Reasoning	—Unverified	0
Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes	Apr 18, 2025	Knowledge GraphsLogical Reasoning	—Unverified	0
LogicTree: Structured Proof Exploration for Coherent and Rigorous Logical Reasoning with Large Language Models	Apr 18, 2025	Logical Reasoning	—Unverified	0
Multi-Stage Retrieval for Operational Technology Cybersecurity Compliance Using Large Language Models: A Railway Casestudy	Apr 18, 2025	HallucinationLogical Reasoning	—Unverified	0
LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection	Apr 17, 2025	Anomaly DetectionLogical Reasoning	—Unverified	0
Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration	Apr 17, 2025	Geometry Problem SolvingLarge Language Model	CodeCode Available	1
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified	0
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving	Apr 15, 2025	Logical ReasoningVisual Question Answering (VQA)	—Unverified	0
MediSee: Reasoning-based Pixel-level Perception in Medical Images	Apr 15, 2025	Logical ReasoningReasoning Segmentation	—Unverified	0
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified	0
Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles	Apr 9, 2025	Logical FallaciesLogical Reasoning	CodeCode Available	0
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available	0
Alice: Proactive Learning with Teacher's Demonstrations for Weak-to-Strong Generalization	Apr 9, 2025	Logical ReasoningMathematical Reasoning	CodeCode Available	1
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification	Apr 7, 2025	Logical ReasoningMath	—Unverified	0
Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent	Apr 7, 2025	Logical Reasoning	—Unverified	0
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition	Apr 4, 2025	Logical Reasoning	—Unverified	0
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing	Apr 3, 2025	BenchmarkingLogical Reasoning	CodeCode Available	2
Adaptive Rectification Sampling for Test-Time Compute Scaling	Apr 2, 2025	GSM8KLogical Reasoning	CodeCode Available	0
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1	Mar 31, 2025	Logical ReasoningMultiple-choice	CodeCode Available	2
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models	Mar 29, 2025	Logical Reasoning	—Unverified	0
QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?	Mar 28, 2025	Logical ReasoningMath	CodeCode Available	1
Negation: A Pink Elephant in the Large Language Models' Room?	Mar 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning	Mar 26, 2025	Logical Reasoning	—Unverified	0
Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning	Mar 25, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
(G)I-DLE: Generative Inference via Distribution-preserving Logit Exclusion with KL Divergence Minimization for Constrained Decoding	Mar 23, 2025	Logical Reasoning	—Unverified	0
Enhancing Retrieval Systems with Inference-Time Logical Reasoning	Mar 22, 2025	Computational EfficiencyLogical Reasoning	—Unverified	0
MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow	Mar 21, 2025	DiagnosticLogical Reasoning	CodeCode Available	2
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified	0
From Chaos to Order: The Atomic Reasoner Framework for Fine-grained Reasoning in Large Language Models	Mar 20, 2025	Logical Reasoning	—Unverified	0
Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1	Mar 20, 2025	Large Language ModelLogical Reasoning	—Unverified	0
Measuring AI Ability to Complete Long Tasks	Mar 18, 2025	Logical Reasoning	CodeCode Available	3
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified	0
3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o	Mar 17, 2025	Logical ReasoningPrompt Engineering	—Unverified	0
Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation	Mar 12, 2025	Allcounterfactual	—Unverified	0
Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models	Mar 12, 2025	Logical ReasoningSurvey	—Unverified	0
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL	Mar 10, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	4
Towards Superior Quantization Accuracy: A Layer-sensitive Approach	Mar 9, 2025	Logical ReasoningModel Compression	—Unverified	0
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios	Mar 8, 2025	BenchmarkingDiagnostic	CodeCode Available	0
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence	Mar 7, 2025	Logical ReasoningWorld Knowledge	—Unverified	0
HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks	Mar 6, 2025	ChatbotLogical Reasoning	—Unverified	0
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL	Mar 6, 2025	Logical ReasoningNatural Language Queries	—Unverified	0
Three tiers of computation in transformers and in brain architectures	Mar 5, 2025	Logical Reasoning	CodeCode Available	0
Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling	Mar 5, 2025	In-Context LearningLogical Reasoning	—Unverified	0
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available	0
KGCompiler: Deep Learning Compilation Optimization for Knowledge Graph Complex Logical Query Answering	Mar 4, 2025	Knowledge GraphsLogical Reasoning	—Unverified	0
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs	Mar 3, 2025	Logical ReasoningReading Comprehension	—Unverified	0
Order Doesn't Matter, But Reasoning Does: Training LLMs with Order-Centric Augmentation	Feb 27, 2025	Data AugmentationLogical Reasoning	—Unverified	0
Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation	Feb 26, 2025	Code GenerationHumanEval	CodeCode Available	2
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning	Feb 25, 2025	Instruction FollowingLanguage Modeling	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified