Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 747 papers

Title	Date	Tasks	Status
A Dataset and Architecture for Visual Reasoning with a Working Memory	Mar 16, 2018	DiagnosticLogical Reasoning	CodeCode Available
Neural Sequence-to-grid Module for Learning Symbolic Rules	Jan 13, 2021	Logical Reasoning	CodeCode Available
Neural Software Analysis	Nov 16, 2020	Code CompletionLogical Reasoning	CodeCode Available
SedarEval: Automated Evaluation using Self-Adaptive Rubrics	Jan 26, 2025	Logical Reasoning	CodeCode Available
Assessing the Alignment of FOL Closeness Metrics with Human Judgement	Jan 15, 2025	Logical ReasoningSensitivity	CodeCode Available
Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge	Feb 22, 2024	Logical Reasoning	CodeCode Available
GOTaxon: Representing the evolution of biological functions in the Gene Ontology	Feb 16, 2018	Logical Reasoning	CodeCode Available
Weisfeiler and Leman Go Relational	Nov 30, 2022	Knowledge GraphsLogical Reasoning	CodeCode Available
Climate Finance Bench	May 28, 2025	Logical ReasoningQuantization	CodeCode Available
Generating Programmatic Referring Expressions via Program Synthesis	Jan 1, 2020	Enumerative SearchLogical Reasoning	CodeCode Available
Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis	Nov 1, 2023	Logical ReasoningPrompt Engineering	CodeCode Available
Who Speaks Next? Multi-party AI Discussion Leveraging the Systematics of Turn-taking in Murder Mystery Games	Dec 6, 2024	Logical Reasoning	CodeCode Available
Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings	Oct 26, 2023	DisentanglementLogical Reasoning	CodeCode Available
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models	Dec 6, 2023	DecoderKnowledge Graphs	CodeCode Available
Sequential Recommendation with Probabilistic Logical Reasoning	Apr 22, 2023	Logical ReasoningSequential Recommendation	CodeCode Available
GammaE: Gamma Embeddings for Logical Queries on Knowledge Graphs	Oct 27, 2022	Knowledge GraphsLogical Reasoning	CodeCode Available
From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition	Oct 17, 2024	Language AcquisitionLogical Reasoning	CodeCode Available
Object-centric proto-symbolic behavioural reasoning from pixels	Nov 26, 2024	continuous-controlContinuous Control	CodeCode Available
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework	Dec 22, 2024	Logical Reasoning	CodeCode Available
FLEX: Feature-Logic Embedding Framework for CompleX Knowledge Graph Reasoning	May 23, 2022	Logical ReasoningNegation	CodeCode Available
Exploring Reasoning Biases in Large Language Models Through Syllogism: Insights from the NeuBAROCO Dataset	Aug 8, 2024	Logical Reasoning	CodeCode Available
Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections	Mar 29, 2024	Logical Reasoning	CodeCode Available
One-Step Abductive Multi-Target Learning with Diverse Noisy Samples and Its Application to Tumour Segmentation for Breast Cancer	Oct 20, 2021	BIG-bench Machine LearningLogical Reasoning	CodeCode Available
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models	Dec 18, 2023	Logical Reasoning	CodeCode Available
EviNet: Evidential Reasoning Network for Resilient Graph Learning in the Open and Noisy Environments	Jun 8, 2025	Graph LearningLogical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 28 of 30Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified