Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 747 papers

Title	Date	Tasks	Status	Hype
LLM-Aided Efficient Hardware Design Automation	Oct 24, 2024	Code RepairLogical Reasoning	—Unverified	0
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks	Oct 24, 2024	Logical ReasoningMathematical Problem-Solving	—Unverified	0
Aligning CodeLLMs with Direct Preference Optimization	Oct 24, 2024	Decision MakingHumanEval	—Unverified	0
MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures	Oct 20, 2024	Answer GenerationInformativeness	CodeCode Available	0
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified	0
Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation	Oct 19, 2024	FormLogical Reasoning	CodeCode Available	0
From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition	Oct 17, 2024	Language AcquisitionLogical Reasoning	CodeCode Available	0
Exploiting LLMs' Reasoning Capability to Infer Implicit Concepts in Legal Information Retrieval	Oct 16, 2024	Information RetrievalLogical Reasoning	—Unverified	0
"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities	Oct 16, 2024	Knowledge ProbingLogical Reasoning	—Unverified	0
Boosting Deductive Reasoning with Step Signals In RLHF	Oct 12, 2024	Formal LogicLogical Reasoning	—Unverified	0
Transformer-based Language Models for Reasoning in the Description Logic ALCQ	Oct 12, 2024	Logical Reasoning	—Unverified	0
A Systematic Assessment of OpenAI o1-Preview for Higher Order Thinking in Education	Oct 11, 2024	Logical Reasoning	—Unverified	0
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains	Oct 11, 2024	Large Language ModelLogical Reasoning	—Unverified	0
uto\!L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks	Oct 11, 2024	BenchmarkingLanguage Modeling	—Unverified	0
HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction	Oct 10, 2024	Binary ClassificationCitation Prediction	CodeCode Available	0
KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data	Oct 10, 2024	Anomaly DetectionFraud Detection	—Unverified	0
Divide and Translate: Compositional First-Order Logic Translation and Verification for Complex Logical Reasoning	Oct 10, 2024	Language ModellingLarge Language Model	CodeCode Available	1
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning	Oct 10, 2024	HallucinationLogical Reasoning	CodeCode Available	1
Think Beyond Size: Adaptive Prompting for More Effective Reasoning	Oct 10, 2024	Arithmetic ReasoningComputational Efficiency	—Unverified	0
Can Transformers Reason Logically? A Study in SAT Solving	Oct 9, 2024	DecoderLogical Reasoning	—Unverified	0
Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?	Oct 9, 2024	In-Context LearningLogical Reasoning	CodeCode Available	0
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles	Oct 7, 2024	Logical Reasoning	CodeCode Available	2
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models	Oct 7, 2024	GSM8KLogical Reasoning	CodeCode Available	1
Latent Feature Mining for Predictive Model Enhancement with Large Language Models	Oct 6, 2024	Logical Reasoning	—Unverified	0
Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification	Oct 6, 2024	ClassificationDomain Generalization	CodeCode Available	0
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model	Oct 4, 2024	DiversityLogical Reasoning	—Unverified	0
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review	Oct 4, 2024	Knowledge DistillationLogical Reasoning	CodeCode Available	2
GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning	Oct 3, 2024	Code GenerationIn-Context Learning	—Unverified	0
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning	Oct 3, 2024	GSM8KLanguage Modeling	—Unverified	0
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning	Oct 1, 2024	Logical Reasoning	CodeCode Available	1
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available	0
Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation	Sep 30, 2024	Logical ReasoningMisinformation	—Unverified	0
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models	Sep 26, 2024	Logical Reasoning	CodeCode Available	0
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models	Sep 25, 2024	Fake News DetectionLanguage Modeling	—Unverified	0
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification	Sep 24, 2024	Data AugmentationLogical Reasoning	CodeCode Available	0
LTNtorch: PyTorch Implementation of Logic Tensor Networks	Sep 24, 2024	Binary ClassificationLogical Reasoning	CodeCode Available	2
Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension	Sep 22, 2024	Contrastive Learningcounterfactual	CodeCode Available	0
GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion	Sep 21, 2024	Logical Reasoning	—Unverified	0
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data	Sep 19, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available	0
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning	Sep 19, 2024	GSM8KLogical Reasoning	CodeCode Available	0
ProSLM : A Prolog Synergized Language Model for explainable Domain Specific Knowledge Based Question Answering	Sep 17, 2024	Formal LogicLanguage Modeling	—Unverified	0
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving	Sep 16, 2024	Autonomous DrivingLogical Reasoning	—Unverified	0
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator	Sep 14, 2024	Logical ReasoningRecommendation Systems	—Unverified	0
KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified	0
CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified	0
Action is the primary key: a categorical framework for episode description and logical reasoning	Sep 7, 2024	Logical Reasoning	—Unverified	0
VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning	Sep 3, 2024	Chart Question AnsweringData Visualization	CodeCode Available	1
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified	0
LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments	Aug 28, 2024	knowledge editingKnowledge Graphs	—Unverified	0
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models	Aug 28, 2024	BenchmarkingLogical Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 5 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified