Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 747 papers

Title	Date	Tasks	Status	Hype
Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees	Aug 21, 2023	Logical Reasoning	CodeCode Available	0
How susceptible are LLMs to Logical Fallacies?	Aug 18, 2023	DiagnosticLogical Fallacies	CodeCode Available	0
Evolving Scientific Discovery by Unifying Data and Background Knowledge with AI Hilbert	Aug 18, 2023	Equation DiscoveryLogical Reasoning	CodeCode Available	1
Learning the meanings of function words from grounded language using a visual question answering model	Aug 16, 2023	Logical ReasoningQuestion Answering	CodeCode Available	0
Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought	Aug 16, 2023	Logical Reasoning	—Unverified	0
Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic	Aug 11, 2023	Formal LogicLogical Reasoning	CodeCode Available	1
Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals	Aug 11, 2023	Graph LearningLogical Reasoning	—Unverified	0
Cumulative Reasoning with Large Language Models	Aug 8, 2023	Decision MakingLogical Reasoning	CodeCode Available	2
Structural Embeddings of Tools for Large Language Models	Aug 1, 2023	Logical Reasoning	—Unverified	0
COLLIE: Systematic Construction of Constrained Text Generation Tasks	Jul 17, 2023	Logical ReasoningSentence	CodeCode Available	1
EFO_k-CQA: Towards Knowledge Graph Complex Query Answering beyond Set Operation	Jul 15, 2023	Complex Query AnsweringKnowledge Graphs	CodeCode Available	1
Is ChatGPT a Good Personality Recognizer? A Preliminary Study	Jul 8, 2023	FairnessLogical Reasoning	—Unverified	0
What is the Title of this Paper? Solving logic puzzles using algorithms	Jun 30, 2023	Logical Reasoning	—Unverified	0
Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models	Jun 30, 2023	Domain GeneralizationIn-Context Learning	CodeCode Available	0
Counterfactual Collaborative Reasoning	Jun 30, 2023	counterfactualCounterfactual Reasoning	—Unverified	0
Exploring & Exploiting High-Order Graph Structure for Sparse Knowledge Graph Completion	Jun 29, 2023	Knowledge Graph CompletionLogical Reasoning	—Unverified	0
IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning	Jun 27, 2023	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
Evaluating Large Language Models with NeuBAROCO: Syllogistic Reasoning Ability and Human-like Biases	Jun 21, 2023	Logical Reasoning	—Unverified	0
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension	Jun 21, 2023	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond	Jun 16, 2023	BenchmarkingEvidence Selection	CodeCode Available	1
Language to Rewards for Robotic Skill Synthesis	Jun 14, 2023	In-Context LearningLogical Reasoning	—Unverified	0
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available	0
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence	Jun 12, 2023	Logical Reasoning	—Unverified	0
Human-in-the-Loop through Chain-of-Thought	Jun 10, 2023	Logical Reasoning	—Unverified	0
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	0
Deductive Verification of Chain-of-Thought Reasoning	Jun 6, 2023	Logical Reasoning	CodeCode Available	1
Certified Deductive Reasoning with Language Models	Jun 6, 2023	Logical Reasoningvalid	CodeCode Available	1
ChatGPT is a Remarkable Tool -- For Experts	Jun 2, 2023	Logical Reasoning	—Unverified	0
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork	Jun 1, 2023	Logical Reasoning	—Unverified	0
InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion	May 28, 2023	BenchmarkingDecision Making	CodeCode Available	0
Synthesizing a Progression of Subtasks for Block-Based Visual Programming Tasks	May 27, 2023	Logical Reasoning	CodeCode Available	0
Counterfactual reasoning: Testing language models' understanding of hypothetical scenarios	May 26, 2023	counterfactualCounterfactual Reasoning	CodeCode Available	1
Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained language models	May 25, 2023	Logical ReasoningWord Embeddings	—Unverified	0
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic	May 24, 2023	Logical ReasoningMath	CodeCode Available	0
Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models	May 23, 2023	Logical ReasoningStrategyQA	—Unverified	0
Exploring Self-supervised Logic-enhanced Training for Large Language Models	May 23, 2023	In-Context LearningLogical Reasoning	CodeCode Available	0
Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs	May 23, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available	0
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization	May 23, 2023	In-Context LearningLanguage Modeling	—Unverified	0
Atomic Inference for NLI with Generated Facts as Atoms	May 22, 2023	Logical ReasoningNatural Language Inference	CodeCode Available	0
Teaching Probabilistic Logical Reasoning to Transformers	May 22, 2023	Logical ReasoningQuestion Answering	CodeCode Available	0
Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning	May 21, 2023	Abstract Meaning RepresentationContrastive Learning	CodeCode Available	1
LogiCoT: Logical Chain-of-Thought Instruction-Tuning	May 20, 2023	Logical ReasoningText Generation	CodeCode Available	1
Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning	May 20, 2023	Logical Reasoning	CodeCode Available	2
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
A Simple Generative Model of Logical Reasoning and Statistical Learning	May 18, 2023	Bayesian InferenceFormal Logic	—Unverified	0
Knowledge Authoring for Rules and Actions	May 12, 2023	Logical Reasoning	—Unverified	0
Scalable Coupling of Deep Learning with Logical Reasoning	May 12, 2023	Deep LearningLogical Reasoning	CodeCode Available	0
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting	May 11, 2023	AllArithmetic Reasoning	CodeCode Available	1
Wasserstein-Fisher-Rao Embedding: Logical Query Embeddings with Local Comparison and Global Transport	May 6, 2023	Knowledge GraphsLogical Reasoning	CodeCode Available	1
Improved Logical Reasoning of Language Models via Differentiable Symbolic Programming	May 5, 2023	Logical Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified