Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 747 papers

Title	Date	Tasks	Status
I-Design: Personalized LLM Interior Designer	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified
Language Model Guided Interpretable Video Action Reasoning	Apr 2, 2024	Action RecognitionDecision Making	CodeCode Available
Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections	Mar 29, 2024	Logical Reasoning	CodeCode Available
Sphere Neural-Networks for Rational Reasoning	Mar 22, 2024	HallucinationLogical Reasoning	—Unverified
Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs	Mar 20, 2024	Logical ReasoningPrompt Engineering	—Unverified
Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts	Mar 17, 2024	Language ModelingLanguage Modelling	—Unverified
Transforming Competition into Collaboration: The Revolutionary Role of Multi-Agent Systems and Language Models in Modern Organizations	Mar 12, 2024	Decision MakingLogical Reasoning	CodeCode Available
Learning Guided Automated Reasoning: A Brief Survey	Mar 6, 2024	Automated Theorem ProvingLogical Reasoning	—Unverified
Fuzzy Datalog^ over Arbitrary t-Norms	Mar 5, 2024	Knowledge GraphsLogical Reasoning	—Unverified
AS-ES Learning: Towards Efficient CoT Learning in Small Models	Mar 4, 2024	Data AugmentationLogical Reasoning	—Unverified
Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding	Mar 2, 2024	Logical ReasoningNegation	—Unverified
Towards Generalist Prompting for Large Language Models by Mental Models	Feb 28, 2024	Logical Reasoning	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
Enhanced User Interaction in Operating Systems through Machine Learning Language Models	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize Encoded Knowledge	Feb 22, 2024	Logical Reasoning	CodeCode Available
Federated Neural Graph Databases	Feb 22, 2024	Complex Query AnsweringFederated Learning	—Unverified
A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and Probabilistic Decision Making	Feb 21, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Science Checker Reloaded: A Bidirectional Paradigm for Transparency and Logical Reasoning	Feb 21, 2024	HallucinationInformation Retrieval	CodeCode Available
Reasoning Algorithmically in Graph Neural Networks	Feb 21, 2024	Combinatorial OptimizationEdge Classification	—Unverified
Conditional Logical Message Passing Transformer for Complex Query Answering	Feb 20, 2024	Complex Query AnsweringKnowledge Graphs	CodeCode Available
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models	Feb 20, 2024	Instruction FollowingLogical Reasoning	—Unverified
Do Large Language Models Understand Logic or Just Mimick Context?	Feb 19, 2024	counterfactualIn-Context Learning	—Unverified
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer	Feb 19, 2024	Language ModelingLanguage Modelling	—Unverified
Puzzle Solving using Reasoning of Large Language Models: A Survey	Feb 17, 2024	Logical ReasoningSurvey	—Unverified
Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification	Feb 16, 2024	Claim VerificationLogical Reasoning	—Unverified
Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models	Feb 16, 2024	In-Context LearningLanguage Modeling	—Unverified
Beyond LLMs: Advancing the Landscape of Complex Reasoning	Feb 12, 2024	Logical Reasoningvalid	—Unverified
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs	Feb 12, 2024	Instruction FollowingLogical Reasoning	—Unverified
Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study	Feb 11, 2024	DiversityLogical Reasoning	—Unverified
Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs	Feb 7, 2024	Logical Reasoning	—Unverified
Symbol Correctness in Deep Neural Networks Containing Symbolic Layers	Feb 6, 2024	Logical ReasoningTransfer Learning	—Unverified
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning	Feb 6, 2024	Logical ReasoningNegation	—Unverified
Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models	Feb 3, 2024	Logical ReasoningLong-Context Understanding	—Unverified
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing	Feb 1, 2024	HallucinationLogical Reasoning	—Unverified
Revisiting Document-Level Relation Extraction with Context-Guided Link Prediction	Jan 22, 2024	Document-level Relation ExtractionLink Prediction	CodeCode Available
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
Dynamic In-Context Learning from Nearest Neighbors for Bundle Generation	Dec 26, 2023	HallucinationIn-Context Learning	—Unverified
Empowering Few-Shot Recommender Systems with Large Language Models -- Enhanced Representations	Dec 21, 2023	Logical ReasoningRecommendation Systems	CodeCode Available
Understanding Inter-Session Intentions via Complex Logical Reasoning	Dec 21, 2023	AttributeComplex Query Answering	CodeCode Available
The Good, The Bad, and Why: Unveiling Emotions in Generative AI	Dec 18, 2023	Logical Reasoning	—Unverified
Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models	Dec 18, 2023	Logical Reasoning	CodeCode Available
Assessing SATNet's Ability to Solve the Symbol Grounding Problem	Dec 13, 2023	Logical Reasoning	—Unverified
Large Language Model Enhanced Multi-Agent Systems for 6G Communications	Dec 13, 2023	Language ModelingLanguage Modelling	—Unverified
Large Language Models are Complex Table Parsers	Dec 13, 2023	Logical ReasoningQuestion Answering	—Unverified
Exploring the Reversal Curse and Other Deductive Logical Reasoning in BERT and GPT-Based Large Language Models	Dec 6, 2023	DecoderKnowledge Graphs	CodeCode Available
Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games	Dec 1, 2023	AI AgentIn-Context Learning	—Unverified
Generation of Explanations for Logic Reasoning	Nov 22, 2023	Logical ReasoningPhilosophy	—Unverified
Enhancing Logical Reasoning in Large Language Models to Facilitate Legal Applications	Nov 22, 2023	FairnessLegal Reasoning	—Unverified
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback	Nov 21, 2023	Logical Reasoning	—Unverified
WatME: Towards Lossless Watermarking Through Lexical Redundancy	Nov 16, 2023	Instruction FollowingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 10 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified