Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 747 papers

Title	Date	Tasks	Status	Hype
AS-ES Learning: Towards Efficient CoT Learning in Small Models	Mar 4, 2024	Data AugmentationLogical Reasoning	—Unverified	0
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding	Mar 2, 2024	Logical ReasoningNegation	—Unverified	0
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified	0
Towards Generalist Prompting for Large Language Models by Mental Models	Feb 28, 2024	Logical Reasoning	—Unverified	0
Enhanced User Interaction in Operating Systems through Machine Learning Language Models	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
SIMPLOT: Enhancing Chart Question Answering by Distilling Essentials	Feb 22, 2024	Chart Question AnsweringLanguage Modeling	CodeCode Available	1
Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge	Feb 22, 2024	Logical Reasoning	CodeCode Available	0
Federated Neural Graph Databases	Feb 22, 2024	Complex Query AnsweringFederated Learning	—Unverified	0
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models	Feb 21, 2024	General KnowledgeLogical Reasoning	CodeCode Available	1
A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and Probabilistic Decision Making	Feb 21, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified	0
Reasoning Algorithmically in Graph Neural Networks	Feb 21, 2024	Combinatorial OptimizationEdge Classification	—Unverified	0
Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning	Feb 21, 2024	HallucinationInformation Retrieval	CodeCode Available	0
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models	Feb 20, 2024	Instruction FollowingLogical Reasoning	—Unverified	0
Conditional Logical Message Passing Transformer for Complex Query Answering	Feb 20, 2024	Complex Query AnsweringKnowledge Graphs	CodeCode Available	0
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations	Feb 19, 2024	Card GamesLogical Reasoning	CodeCode Available	3
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer	Feb 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
Do Large Language Models Understand Logic or Just Mimick Context?	Feb 19, 2024	counterfactualIn-Context Learning	—Unverified	0
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs	Feb 18, 2024	Logical Reasoning	CodeCode Available	1
Puzzle Solving using Reasoning of Large Language Models: A Survey	Feb 17, 2024	Logical ReasoningSurvey	—Unverified	0
Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models	Feb 16, 2024	In-Context LearningLanguage Modeling	—Unverified	0
Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification	Feb 16, 2024	Claim VerificationLogical Reasoning	—Unverified	0
Beyond LLMs: Advancing the Landscape of Complex Reasoning	Feb 12, 2024	Logical Reasoningvalid	—Unverified	0
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs	Feb 12, 2024	Instruction FollowingLogical Reasoning	—Unverified	0
Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study	Feb 11, 2024	DiversityLogical Reasoning	—Unverified	0
The Quantified Boolean Bayesian Network: Theory and Experiments with a Logical Graphical Model	Feb 9, 2024	Information RetrievalLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 15 of 30Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified