Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 747 papers

Title	Date	Tasks	Status	Hype
Scaling Synthetic Data Creation with 1,000,000,000 Personas	Jun 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	11
NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context?	Jul 16, 2024	4k8k	CodeCode Available	9
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step	Nov 15, 2024	Logical ReasoningMultimodal Reasoning	CodeCode Available	7
PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation	Jan 20, 2025	Language ModelingLanguage Modelling	CodeCode Available	7
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
SGLang: Efficient Execution of Structured Language Model Programs	Dec 12, 2023	Few-Shot LearningLanguage Modeling	CodeCode Available	6
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models	Jun 15, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	5
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI	Nov 27, 2023	Complex Query AnsweringLogical Reasoning	CodeCode Available	5
Training Large Language Models to Reason in a Continuous Latent Space	Dec 9, 2024	Logical Reasoning	CodeCode Available	5
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent	Nov 4, 2024	Logical ReasoningMathematical Problem-Solving	CodeCode Available	5
From System 1 to System 2: A Survey of Reasoning Large Language Models	Feb 24, 2025	Logical Reasoning	CodeCode Available	5
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning	Dec 31, 2024	BenchmarkingLogical Reasoning	CodeCode Available	4
R1-Onevision：An Open-Source Multimodal Large Language Model Capable of Deep Reasoning	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	4
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL	Mar 10, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	4
Knowledge Fusion of Large Language Models	Jan 19, 2024	Code GenerationCommon Sense Reasoning	CodeCode Available	4
Reasoning with Language Model Prompting: A Survey	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	3
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models	Apr 19, 2023	Logical Reasoning	CodeCode Available	3
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations	Feb 19, 2024	Card GamesLogical Reasoning	CodeCode Available	3
Advancing LLM Reasoning Generalists with Preference Trees	Apr 2, 2024	BenchmarkingCode Generation	CodeCode Available	3
Faithful Logical Reasoning via Symbolic Chain-of-Thought	May 28, 2024	Logical Reasoning	CodeCode Available	3
Measuring AI Ability to Complete Long Tasks	Mar 18, 2025	Logical Reasoning	CodeCode Available	3
LLM4Drive: A Survey of Large Language Models for Autonomous Driving	Nov 2, 2023	Autonomous DrivingFew-Shot Learning	CodeCode Available	3
A Survey on Large Language Model Acceleration based on KV Cache Management	Dec 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
Scaling Language Models: Methods, Analysis & Insights from Training Gopher	Dec 8, 2021	Abstract AlgebraAnachronisms	CodeCode Available	2
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond	May 26, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	2
Cumulative Reasoning with Large Language Models	Aug 8, 2023	Decision MakingLogical Reasoning	CodeCode Available	2
Ontology Embedding: A Survey of Methods, Applications and Resources	Jun 16, 2024	Logical ReasoningOntology Embedding	CodeCode Available	2
Easy Problems That LLMs Get Wrong	May 30, 2024	Common Sense ReasoningLogical Reasoning	CodeCode Available	2
MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow	Mar 21, 2025	DiagnosticLogical Reasoning	CodeCode Available	2
Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation	Feb 26, 2025	Code GenerationHumanEval	CodeCode Available	2
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning	May 20, 2023	Logical Reasoning	CodeCode Available	2
LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking	Jan 14, 2025	Autonomous DrivingDecision Making	CodeCode Available	2
LTNtorch: PyTorch Implementation of Logic Tensor Networks	Sep 24, 2024	Binary ClassificationLogical Reasoning	CodeCode Available	2
LangBridge: Multilingual Reasoning Without Multilingual Supervision	Jan 19, 2024	Code CompletionLogical Reasoning	CodeCode Available	2
Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects	May 26, 2025	Autonomous DrivingLogical Reasoning	CodeCode Available	2
ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning	Mar 19, 2022	Chart Question AnsweringLogical Reasoning	CodeCode Available	2
Large Language Models are Zero-Shot Reasoners	May 24, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	2
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems	Apr 6, 2024	Logical ReasoningMath	CodeCode Available	2
Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs	Jun 13, 2024	Arithmetic ReasoningFact Verification	CodeCode Available	2
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples	Jun 9, 2024	ARCDiversity	CodeCode Available	2
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1	Mar 31, 2025	Logical ReasoningMultiple-choice	CodeCode Available	2
FlashRNN: Optimizing Traditional RNNs on Modern Hardware	Dec 10, 2024	GPULogical Reasoning	CodeCode Available	2
Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation	Dec 5, 2023	Logical Reasoning	CodeCode Available	2
Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus	Nov 19, 2024	Formal LogicLogical Reasoning	CodeCode Available	2
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review	Oct 4, 2024	Knowledge DistillationLogical Reasoning	CodeCode Available	2
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing	Apr 3, 2025	BenchmarkingLogical Reasoning	CodeCode Available	2
Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving	May 24, 2024	Autonomous DrivingDecision Making	CodeCode Available	2
Evaluating the World Model Implicit in a Generative Model	Jun 6, 2024	Logical Reasoningmodel	CodeCode Available	2
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners	Apr 19, 2025	Action GenerationLogical Reasoning	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 15Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, Direct)	Accuracy	64.8	—	Unverified
2	PaLM 2 (few-shot, k=3, CoT)	Accuracy	57.2	—	Unverified
3	OPT 66B (few-shot, k=3)	Accuracy	54	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	53.6	—	Unverified
5	GPT-NeoX 20B (few-shot, k=3)	Accuracy	52.8	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	52.8	—	Unverified
7	Chinchilla-70B (few-shot, k=5)	Accuracy	52.1	—	Unverified
8	Bloomberg GPT 50B (few-shot, k=3)	Accuracy	50.8	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	50.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	84.9	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	65.8	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	48.7	—	Unverified
4	PaLM 540B (few-shot, k=3)	Accuracy	44.5	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	40.6	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	40.41	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	37.67	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	33.56	—	Unverified
9	OPT 66B (few-shot, k=3)	Accuracy	28.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	91.2	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	61.2	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	59.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	49.2	—	Unverified
5	PaLM 540B (few-shot, k=3)	Accuracy	38	—	Unverified
6	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
7	Bloomberg GPT (few-shot, k=3)	Accuracy	34.8	—	Unverified
8	OPT 66B (few-shot, k=3)	Accuracy	31.2	—	Unverified
9	GPT-NeoX (few-shot, k=3)	Accuracy	26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	44	—	Unverified
2	PaLM-540B (few-shot, k=5)	Accuracy	42.4	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	36.5	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	35.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	73.9	—	Unverified
2	Chinchilla-70B (few-shot, k=5)	Accuracy	68.3	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	65.4	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	83.7	—	Unverified
2	RuGPT-3 Large	Accuracy	40.7	—	Unverified
3	RuGPT-3 Medium	Accuracy	38	—	Unverified
4	RuGPT-3 Small	Accuracy	34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human benchmark	Accuracy	87	—	Unverified
2	RuGPT-3 Small	Accuracy	57.9	—	Unverified
3	RuGPT-3 Medium	Accuracy	57.2	—	Unverified
4	RuGPT-3 Large	Accuracy	55.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	72.1	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	58.9	—	Unverified