Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 747 papers

Title	Date	Tasks	Status
FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models	Nov 16, 2023	Instruction FollowingLogical Reasoning	—Unverified
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning	Nov 14, 2023	Logical FallaciesLogical Reasoning	CodeCode Available
Assessing Logical Puzzle Solving in Large Language Models: Insights from a Minesweeper Case Study	Nov 13, 2023	Logical ReasoningPrompt Engineering	CodeCode Available
From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models	Nov 12, 2023	Language ModellingLogical Reasoning	—Unverified
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding	Nov 12, 2023	Language ModelingLanguage Modelling	—Unverified
Language Models can be Logical Solvers	Nov 10, 2023	Decision MakingLanguage Modeling	—Unverified
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified
COOL: A Constraint Object-Oriented Logic Programming Language and its Neural-Symbolic Compilation System	Nov 7, 2023	Logical Reasoning	—Unverified
Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions	Nov 5, 2023	Logical ReasoningMultiple-choice	—Unverified
Rule Learning as Machine Translation using the Atomic Knowledge Bank	Nov 5, 2023	Logical ReasoningMachine Translation	CodeCode Available
Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis	Nov 1, 2023	Logical ReasoningPrompt Engineering	CodeCode Available
Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings	Oct 26, 2023	DisentanglementLogical Reasoning	CodeCode Available
POE: Process of Elimination for Multiple Choice Reasoning	Oct 24, 2023	In-Context LearningLogical Reasoning	CodeCode Available
Breaking the Language Barrier: Improving Cross-Lingual Reasoning with Structured Self-Attention	Oct 23, 2023	Logical Reasoning	CodeCode Available
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism	Oct 23, 2023	Logical ReasoningNegation	—Unverified
DetectGPT-SC: Improving Detection of Text Generated by Large Language Models through Self-Consistency with Masked Predictions	Oct 23, 2023	Logical ReasoningText Generation	—Unverified
Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring	Oct 20, 2023	Logical ReasoningResponse Generation	—Unverified
The potential of large language models for improving probability learning: A study on ChatGPT3.5 and first-year computer engineering students	Oct 9, 2023	Language ModellingLogical Reasoning	—Unverified
Empower Nested Boolean Logic via Self-Supervised Curriculum Learning	Oct 9, 2023	Logical ReasoningSelf-Supervised Learning	CodeCode Available
DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers	Oct 5, 2023	DecoderLogical Reasoning	CodeCode Available
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance	Oct 3, 2023	Code GenerationLogical Reasoning	CodeCode Available
Learning Reliable Logical Rules with SATNet	Oct 3, 2023	Logical Reasoning	—Unverified
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models	Oct 2, 2023	Knowledge DistillationLanguage Modelling	—Unverified
DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks	Sep 29, 2023	Logical Reasoning	—Unverified
Physics of Language Models: Part 3.2, Knowledge Manipulation	Sep 25, 2023	AttributeLanguage Modelling	—Unverified
EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning	Sep 16, 2023	Date UnderstandingGSM8K	CodeCode Available
On the Potential of CLIP for Compositional Logical Reasoning	Aug 30, 2023	Logical ReasoningVisual Reasoning	—Unverified
LR-XFL: Logical Reasoning-based Explainable Federated Learning	Aug 24, 2023	Federated LearningLogical Reasoning	CodeCode Available
Human Comprehensible Active Learning of Genome-Scale Metabolic Networks	Aug 24, 2023	Active LearningExperimental Design	—Unverified
Deciphering Raw Data in Neuro-Symbolic Learning with Provable Guarantees	Aug 21, 2023	Logical Reasoning	CodeCode Available
How susceptible are LLMs to Logical Fallacies?	Aug 18, 2023	DiagnosticLogical Fallacies	CodeCode Available
Boosting Logical Reasoning in Large Language Models through a New Framework: The Graph of Thought	Aug 16, 2023	Logical Reasoning	—Unverified
Learning the meanings of function words from grounded language using a visual question answering model	Aug 16, 2023	Logical ReasoningQuestion Answering	CodeCode Available
Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals	Aug 11, 2023	Graph LearningLogical Reasoning	—Unverified
Structural Embeddings of Tools for Large Language Models	Aug 1, 2023	Logical Reasoning	—Unverified
Is ChatGPT a Good Personality Recognizer? A Preliminary Study	Jul 8, 2023	FairnessLogical Reasoning	—Unverified
Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models	Jun 30, 2023	Domain GeneralizationIn-Context Learning	CodeCode Available
What is the Title of this Paper? Solving logic puzzles using algorithms	Jun 30, 2023	Logical Reasoning	—Unverified
Counterfactual Collaborative Reasoning	Jun 30, 2023	counterfactualCounterfactual Reasoning	—Unverified
Exploring & Exploiting High-Order Graph Structure for Sparse Knowledge Graph Completion	Jun 29, 2023	Knowledge Graph CompletionLogical Reasoning	—Unverified
Evaluating Large Language Models with NeuBAROCO: Syllogistic Reasoning Ability and Human-like Biases	Jun 21, 2023	Logical Reasoning	—Unverified
Language to Rewards for Robotic Skill Synthesis	Jun 14, 2023	In-Context LearningLogical Reasoning	—Unverified
V-LoL: A Diagnostic Dataset for Visual Logical Learning	Jun 13, 2023	DiagnosticLogical Reasoning	CodeCode Available
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence	Jun 12, 2023	Logical Reasoning	—Unverified
Human-in-the-Loop through Chain-of-Thought	Jun 10, 2023	Logical Reasoning	—Unverified
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available
ChatGPT is a Remarkable Tool -- For Experts	Jun 2, 2023	Logical Reasoning	—Unverified
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork	Jun 1, 2023	Logical Reasoning	—Unverified
InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion	May 28, 2023	BenchmarkingDecision Making	CodeCode Available
Synthesizing a Progression of Subtasks for Block-Based Visual Programming Tasks	May 27, 2023	Logical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 11 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified