Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 747 papers

Title	Date	Tasks	Status
RobustLR: Evaluating Robustness to Logical Perturbation in Deductive Reasoning	May 25, 2022	Logical ReasoningNegation	CodeCode Available
Weakly Supervised Knowledge Transfer with Probabilistic Logical Reasoning for Object Detection	Mar 9, 2023	AllLogical Reasoning	CodeCode Available
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available
Counterfactual Adversarial Learning with Representation Interpolation	Sep 10, 2021	counterfactualLogical Reasoning	CodeCode Available
Rule Learning as Machine Translation using the Atomic Knowledge Bank	Nov 5, 2023	Logical ReasoningMachine Translation	CodeCode Available
Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models	Jun 24, 2024	Logical ReasoningNatural Language Understanding	CodeCode Available
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data	Oct 1, 2024	Code GenerationLogical Reasoning	CodeCode Available
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning	Feb 25, 2025	Instruction FollowingLanguage Modeling	CodeCode Available
SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver	May 29, 2019	Deep LearningGame of Sudoku	CodeCode Available
Scalable Coupling of Deep Learning with Logical Reasoning	May 12, 2023	Deep LearningLogical Reasoning	CodeCode Available
A Structured Unplugged Approach for Foundational AI Literacy in Primary Education	May 27, 2025	Logical ReasoningMisconceptions	CodeCode Available
Context Transformer with Stacked Pointer Networks for Conversational Question Answering over Knowledge Graphs	Mar 13, 2021	Conversational Question AnsweringKnowledge Graphs	CodeCode Available
Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification	Oct 6, 2024	ClassificationDomain Generalization	CodeCode Available
Integrating Expert Knowledge into Logical Programs via LLMs	Feb 17, 2025	BenchmarkingLogical Reasoning	CodeCode Available
Conditional Logical Message Passing Transformer for Complex Query Answering	Feb 20, 2024	Complex Query AnsweringKnowledge Graphs	CodeCode Available
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance	Oct 3, 2023	Code GenerationLogical Reasoning	CodeCode Available
Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars	Jun 16, 2024	Automated Theorem ProvingLogical Reasoning	CodeCode Available
Inductive Logical Query Answering in Knowledge Graphs	Oct 13, 2022	Complex Query AnsweringEntity Embeddings	CodeCode Available
InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion	May 28, 2023	BenchmarkingDecision Making	CodeCode Available
Assessing Logical Puzzle Solving in Large Language Models: Insights from a Minesweeper Case Study	Nov 13, 2023	Logical ReasoningPrompt Engineering	CodeCode Available
Aligning Knowledge Graphs Provided by Humans and Generated from Neural Networks in Specific Tasks	Apr 23, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available
Improving Multi-hop Logical Reasoning in Knowledge Graphs with Context-Aware Query Representation Learning	Jun 11, 2024	Knowledge GraphsLogical Reasoning	CodeCode Available
How susceptible are LLMs to Logical Fallacies?	Aug 18, 2023	DiagnosticLogical Fallacies	CodeCode Available
HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction	Oct 10, 2024	Binary ClassificationCitation Prediction	CodeCode Available
Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning	Feb 21, 2024	HallucinationInformation Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 27 of 30Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified