Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 747 papers

Title	Date	Tasks	Status
A Structured Unplugged Approach for Foundational AI Literacy in Primary Education	May 27, 2025	Logical ReasoningMisconceptions	CodeCode Available
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles	May 26, 2025	ARCLogical Reasoning	—Unverified
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers	May 26, 2025	Logical ReasoningMathematical Problem-Solving	CodeCode Available
CP-Router: An Uncertainty-Aware Router Between LLM and LRM	May 26, 2025	Conformal PredictionLogical Reasoning	—Unverified
ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding	May 25, 2025	Chart UnderstandingLogical Reasoning	CodeCode Available
MARCO: Meta-Reflection with Cross-Referencing for Code Reasoning	May 23, 2025	Logical Reasoning	—Unverified
Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation	May 22, 2025	Financial AnalysisLogical Reasoning	—Unverified
Reasoning in Neurosymbolic AI	May 22, 2025	FairnessLogical Reasoning	—Unverified
Sudoku-Bench: Evaluating creative reasoning with Sudoku variants	May 22, 2025	DiversityLogical Reasoning	CodeCode Available
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas	May 20, 2025	BenchmarkingLogical Reasoning	—Unverified
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning	May 20, 2025	Logical ReasoningMathematical Reasoning	—Unverified
Curriculum Abductive Learning	May 18, 2025	Logical Reasoning	—Unverified
System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection	May 10, 2025	Logical ReasoningRAG	—Unverified
Learning Symbolic Persistent Macro-Actions for POMDP Solving Over Time	May 6, 2025	Computational EfficiencyDecision Making	—Unverified
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking	May 5, 2025	Logical Reasoning	—Unverified
Reasoning Capabilities and Invariability of Large Language Models	May 1, 2025	Logical Reasoning	CodeCode Available
A Report on the llms evaluating the high school questions	Apr 30, 2025	Logical Reasoning	—Unverified
LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning	Apr 28, 2025	Anomaly DetectionLogical Reasoning	CodeCode Available
POLYRAG: Integrating Polyviews into Retrieval-Augmented Generation for Medical Applications	Apr 21, 2025	HallucinationLogical Reasoning	—Unverified
CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs	Apr 21, 2025	Claim VerificationLogical Reasoning	CodeCode Available
HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation	Apr 19, 2025	Explainable RecommendationLogical Reasoning	—Unverified
Multi-Stage Retrieval for Operational Technology Cybersecurity Compliance Using Large Language Models: A Railway Casestudy	Apr 18, 2025	HallucinationLogical Reasoning	—Unverified
LogicTree: Structured Proof Exploration for Coherent and Rigorous Logical Reasoning with Large Language Models	Apr 18, 2025	Logical Reasoning	—Unverified
Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes	Apr 18, 2025	Knowledge GraphsLogical Reasoning	—Unverified
LAD-Reasoner: Tiny Multimodal Models are Good Reasoners for Logical Anomaly Detection	Apr 17, 2025	Anomaly DetectionLogical Reasoning	—Unverified
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning	Apr 16, 2025	Language ModelingLanguage Modelling	—Unverified
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving	Apr 15, 2025	Logical ReasoningVisual Question Answering (VQA)	—Unverified
MediSee: Reasoning-based Pixel-level Perception in Medical Images	Apr 15, 2025	Logical ReasoningReasoning Segmentation	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available
Socrates or Smartypants: Testing Logic Reasoning Capabilities of Large Language Models with Logic Programming-based Test Oracles	Apr 9, 2025	Logical FallaciesLogical Reasoning	CodeCode Available
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification	Apr 7, 2025	Logical ReasoningMath	—Unverified
Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent	Apr 7, 2025	Logical Reasoning	—Unverified
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition	Apr 4, 2025	Logical Reasoning	—Unverified
Adaptive Rectification Sampling for Test-Time Compute Scaling	Apr 2, 2025	GSM8KLogical Reasoning	CodeCode Available
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models	Mar 29, 2025	Logical Reasoning	—Unverified
Negation: A Pink Elephant in the Large Language Models' Room?	Mar 28, 2025	Language ModelingLanguage Modelling	—Unverified
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning	Mar 26, 2025	Logical Reasoning	—Unverified
Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning	Mar 25, 2025	Language ModelingLanguage Modelling	—Unverified
(G)I-DLE: Generative Inference via Distribution-preserving Logit Exclusion with KL Divergence Minimization for Constrained Decoding	Mar 23, 2025	Logical Reasoning	—Unverified
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Enhancing Retrieval Systems with Inference-Time Logical Reasoning	Mar 22, 2025	Computational EfficiencyLogical Reasoning	—Unverified
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning	Mar 21, 2025	Code GenerationDeep Reinforcement Learning	—Unverified
Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1	Mar 20, 2025	Large Language ModelLogical Reasoning	—Unverified
From Chaos to Order: The Atomic Reasoner Framework for Fine-grained Reasoning in Large Language Models	Mar 20, 2025	Logical Reasoning	—Unverified
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified
3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o	Mar 17, 2025	Logical ReasoningPrompt Engineering	—Unverified
Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models	Mar 12, 2025	Logical ReasoningSurvey	—Unverified
Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation	Mar 12, 2025	Allcounterfactual	—Unverified

Show:10 25 50

← PrevPage 5 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified