Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 747 papers

Title	Date	Tasks	Status
Towards Superior Quantization Accuracy: A Layer-sensitive Approach	Mar 9, 2025	Logical ReasoningModel Compression	—Unverified
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios	Mar 8, 2025	BenchmarkingDiagnostic	CodeCode Available
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence	Mar 7, 2025	Logical ReasoningWorld Knowledge	—Unverified
DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL	Mar 6, 2025	Logical ReasoningNatural Language Queries	—Unverified
HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks	Mar 6, 2025	ChatbotLogical Reasoning	—Unverified
Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling	Mar 5, 2025	In-Context LearningLogical Reasoning	—Unverified
Three tiers of computation in transformers and in brain architectures	Mar 5, 2025	Logical Reasoning	CodeCode Available
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available
KGCompiler: Deep Learning Compilation Optimization for Knowledge Graph Complex Logical Query Answering	Mar 4, 2025	Knowledge GraphsLogical Reasoning	—Unverified
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs	Mar 3, 2025	Logical ReasoningReading Comprehension	—Unverified
Order Doesn't Matter, But Reasoning Does: Training LLMs with Order-Centric Augmentation	Feb 27, 2025	Data AugmentationLogical Reasoning	—Unverified
Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions	Feb 25, 2025	Inductive BiasLogical Reasoning	—Unverified
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning	Feb 25, 2025	Instruction FollowingLanguage Modeling	CodeCode Available
Logic Haystacks: Probing LLMs Long-Context Logical Reasoning (Without Easily Identifiable Unrelated Padding)	Feb 24, 2025	Logical ReasoningRetrieval	—Unverified
Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning	Feb 24, 2025	In-Context LearningLogical Reasoning	—Unverified
Autoregressive Image Generation Guided by Chains of Thought	Feb 24, 2025	Image GenerationLogical Reasoning	—Unverified
Quantifying Logical Consistency in Transformers via Query-Key Alignment	Feb 24, 2025	Logical Reasoningvalid	—Unverified
Empowering LLMs with Logical Reasoning: A Comprehensive Survey	Feb 21, 2025	Logical ReasoningNegation	—Unverified
Identifying Features that Shape Perceived Consciousness in Large Language Model-based AI: A Quantitative Study of Human Responses	Feb 21, 2025	Language ModelingLanguage Modelling	—Unverified
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests	Feb 20, 2025	Logical ReasoningMMLU	—Unverified
On the logical skills of large language models: evaluations using arbitrarily complex first-order logic problems	Feb 20, 2025	Logical Reasoning	CodeCode Available
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos	Feb 19, 2025	Logical Reasoning	—Unverified
SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin	Feb 19, 2025	GPULogical Reasoning	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
HopRAG: Multi-Hop Reasoning for Logic-Aware Retrieval-Augmented Generation	Feb 18, 2025	Logical ReasoningRAG	—Unverified
Integrating Expert Knowledge into Logical Programs via LLMs	Feb 17, 2025	BenchmarkingLogical Reasoning	CodeCode Available
Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs	Feb 17, 2025	In-Context LearningLogical Reasoning	—Unverified
Dialogue-based Explanations for Logical Reasoning using Structured Argumentation	Feb 16, 2025	Logical Reasoning	—Unverified
Quantifying the Capability Boundary of DeepSeek Models: An Application-Driven Performance Analysis	Feb 16, 2025	Logical ReasoningModel Selection	—Unverified
The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models	Feb 13, 2025	Logical ReasoningSurvey	—Unverified
Logical Reasoning in Large Language Models: A Survey	Feb 13, 2025	Logical ReasoningSurvey	—Unverified
Logical Lease Litigation: Prolog and LLMs for Rental Law Compliance in New York	Feb 13, 2025	Legal ReasoningLogical Reasoning	—Unverified
Logical forms complement probability in understanding language model (and human) performance	Feb 13, 2025	Language ModelingLanguage Modelling	—Unverified
DMWM: Dual-Mind World Model with Long-Term Imagination	Feb 11, 2025	Logical Reasoning	—Unverified
Structural Reformation of Large Language Model Neuron Encapsulation for Divergent Information Aggregation	Feb 10, 2025	Decision MakingLanguage Modeling	—Unverified
S^2-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency	Feb 7, 2025	Logical Reasoning	—Unverified
SymAgent: A Neural-Symbolic Self-Learning Agent Framework for Complex Reasoning over Knowledge Graphs	Feb 5, 2025	Knowledge GraphsLogical Reasoning	—Unverified
Standard Neural Computation Alone Is Insufficient for Logical Intelligence	Feb 4, 2025	Inductive LearningLogical Reasoning	—Unverified
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs	Feb 4, 2025	Formal LogicKnowledge Graphs	—Unverified
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning	Feb 3, 2025	Logical Reasoning	—Unverified
Enhancing Large Language Model Efficiencyvia Symbolic Compression: A Formal Approach Towards Interpretability	Jan 30, 2025	Code GenerationLanguage Modeling	—Unverified
Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers	Jan 28, 2025	Logical Reasoning	—Unverified
Town Hall Debate Prompting: Enhancing Logical Reasoning in LLMs through Multi-Persona Interaction	Jan 28, 2025	Logical ReasoningMultiple-choice	—Unverified
DBRouting: Routing End User Queries to Databases for Answerability	Jan 27, 2025	Logical ReasoningSemantic Parsing	—Unverified
SedarEval: Automated Evaluation using Self-Adaptive Rubrics	Jan 26, 2025	Logical Reasoning	CodeCode Available
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models	Jan 25, 2025	Logical Reasoning	—Unverified
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models	Jan 24, 2025	Logical Reasoning	CodeCode Available
VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning	Jan 24, 2025	Logical Reasoning	—Unverified
Assessing the Alignment of FOL Closeness Metrics with Human Judgement	Jan 15, 2025	Logical ReasoningSensitivity	CodeCode Available
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning	Jan 14, 2025	Logical ReasoningMulti-hop Question Answering	—Unverified

Show:10 25 50

← PrevPage 6 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified