Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 747 papers

Title	Date	Tasks	Status
Boosting Deductive Reasoning with Step Signals In RLHF	Oct 12, 2024	Formal LogicLogical Reasoning	—Unverified
uto\!L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks	Oct 11, 2024	BenchmarkingLanguage Modeling	—Unverified
A Systematic Assessment of OpenAI o1-Preview for Higher Order Thinking in Education	Oct 11, 2024	Logical Reasoning	—Unverified
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains	Oct 11, 2024	Large Language ModelLogical Reasoning	—Unverified
KnowGraph: Knowledge-Enabled Anomaly Detection via Logical Reasoning on Graph Data	Oct 10, 2024	Anomaly DetectionFraud Detection	—Unverified
HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction	Oct 10, 2024	Binary ClassificationCitation Prediction	CodeCode Available
Think Beyond Size: Adaptive Prompting for More Effective Reasoning	Oct 10, 2024	Arithmetic ReasoningComputational Efficiency	—Unverified
Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance?	Oct 9, 2024	In-Context LearningLogical Reasoning	CodeCode Available
Can Transformers Reason Logically? A Study in SAT Solving	Oct 9, 2024	DecoderLogical Reasoning	—Unverified
Latent Feature Mining for Predictive Model Enhancement with Large Language Models	Oct 6, 2024	Logical Reasoning	—Unverified
Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification	Oct 6, 2024	ClassificationDomain Generalization	CodeCode Available
Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model	Oct 4, 2024	DiversityLogical Reasoning	—Unverified
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning	Oct 3, 2024	GSM8KLanguage Modeling	—Unverified
GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning	Oct 3, 2024	Code GenerationIn-Context Learning	—Unverified
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available
Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation	Sep 30, 2024	Logical ReasoningMisinformation	—Unverified
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models	Sep 26, 2024	Logical Reasoning	CodeCode Available
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models	Sep 25, 2024	Fake News DetectionLanguage Modeling	—Unverified
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification	Sep 24, 2024	Data AugmentationLogical Reasoning	CodeCode Available
Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension	Sep 22, 2024	Contrastive Learningcounterfactual	CodeCode Available
GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion	Sep 21, 2024	Logical Reasoning	—Unverified
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning	Sep 19, 2024	GSM8KLogical Reasoning	CodeCode Available
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data	Sep 19, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available
ProSLM : A Prolog Synergized Language Model for explainable Domain Specific Knowledge Based Question Answering	Sep 17, 2024	Formal LogicLanguage Modeling	—Unverified
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving	Sep 16, 2024	Autonomous DrivingLogical Reasoning	—Unverified
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator	Sep 14, 2024	Logical ReasoningRecommendation Systems	—Unverified
KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language Models	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning	Sep 9, 2024	Common Sense ReasoningLogical Reasoning	—Unverified
Action is the primary key: a categorical framework for episode description and logical reasoning	Sep 7, 2024	Logical Reasoning	—Unverified
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified
LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments	Aug 28, 2024	knowledge editingKnowledge Graphs	—Unverified
SarcasmBench: Towards Evaluating Large Language Models on Sarcasm Understanding	Aug 21, 2024	Logical ReasoningMathematical Reasoning	—Unverified
Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models	Aug 21, 2024	Logical ReasoningMotion Synthesis	—Unverified
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions	Aug 16, 2024	DescriptiveHallucination	—Unverified
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models	Aug 16, 2024	Logical Reasoningvalid	—Unverified
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image	Aug 14, 2024	Autonomous DrivingLogical Reasoning	—Unverified
Can Large Language Models Reason? A Characterization via 3-SAT	Aug 13, 2024	Logical Reasoning	—Unverified
P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training	Aug 10, 2024	DiversityLogical Reasoning	—Unverified
Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset	Aug 8, 2024	Logical Reasoning	CodeCode Available
Automated Theorem Provers Help Improve Large Language Model Reasoning	Aug 7, 2024	Formal LogicLanguage Modeling	—Unverified
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation	Aug 7, 2024	Logical ReasoningRecommendation Systems	—Unverified
Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference	Aug 4, 2024	Logical ReasoningPrompt Engineering	—Unverified
Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation	Jul 31, 2024	Logical ReasoningMisinformation	—Unverified
CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge	Jul 30, 2024	In-Context LearningKnowledge Graphs	—Unverified
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
Logic Distillation: Learning from Code Function by Function for Planning and Decision-making	Jul 28, 2024	Decision MakingKnowledge Distillation	—Unverified
An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought	Jul 22, 2024	FormLogical Reasoning	—Unverified
An Explainable Fast Deep Neural Network for Emotion Recognition	Jul 20, 2024	AttributeEmotion Classification	—Unverified
Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?	Jul 20, 2024	Logical Reasoning	CodeCode Available
Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures?	Jul 12, 2024	Logical ReasoningMultiple-choice	CodeCode Available

Show:10 25 50

← PrevPage 8 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified