SOTAVerified|Agents Browse Leaderboard About Blog

Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 747 papers

Title	Date	Tasks	Status	Hype
FEVO: Financial Knowledge Expansion and Reasoning Evolution for Large Language Models	Jul 8, 2025	Logical ReasoningReinforcement Learning (RL)	—Unverified	0
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified	0
Discrete JEPA: Learning Discrete Token Representations without Reconstruction	Jun 17, 2025	Logical Reasoning	—Unverified	0
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making	Jun 15, 2025	Answer GenerationDecision Making	—Unverified	0
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models	Jun 15, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	5
Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified	0
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving	Jun 12, 2025	Logical ReasoningMathematical Problem-Solving	—Unverified	0
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games	Jun 11, 2025	Logical ReasoningMath	—Unverified	0
EviNet: Evidential Reasoning Network for Resilient Graph Learning in the Open and Noisy Environments	Jun 8, 2025	Graph LearningLogical Reasoning	CodeCode Available	0
Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?	Jun 5, 2025	Formal LogicIn-Context Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 75Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PaLM 2 (few-shot, k=3, CoT)	Accuracy	100	—	Unverified
2	PaLM 2 (few-shot, k=3, Direct)	Accuracy	96.4	—	Unverified
3	PaLM 540B (few-shot, k=3)	Accuracy	39.6	—	Unverified
4	BLOOM 176B (few-shot, k=3)	Accuracy	36.8	—	Unverified
5	Chinchilla-70B (few-shot, k=5)	Accuracy	32	—	Unverified
6	Bloomberg GPT (few-shot, k=3)	Accuracy	29.2	—	Unverified
7	OPT 66B (few-shot, k=3)	Accuracy	23.6	—	Unverified
8	GPT-NeoX (few-shot, k=3)	Accuracy	21.2	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	19	—	Unverified