SOTAVerified|Agents Browse Leaderboard About Blog

Logical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 747 papers

Title	Date	Tasks	Status	Hype
FEVO: Financial Knowledge Expansion and Reasoning Evolution for Large Language Models	Jul 8, 2025	Logical ReasoningReinforcement Learning (RL)	—Unverified	0
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning	Jun 27, 2025	Logical ReasoningRepresentation Learning	—Unverified	0
Discrete JEPA: Learning Discrete Token Representations without Reconstruction	Jun 17, 2025	Logical Reasoning	—Unverified	0
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making	Jun 15, 2025	Answer GenerationDecision Making	—Unverified	0
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models	Jun 15, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	5
Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation	Jun 12, 2025	Language ModelingLanguage Modelling	—Unverified	0
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving	Jun 12, 2025	Logical ReasoningMathematical Problem-Solving	—Unverified	0
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games	Jun 11, 2025	Logical ReasoningMath	—Unverified	0
EviNet: Evidential Reasoning Network for Resilient Graph Learning in the Open and Noisy Environments	Jun 8, 2025	Graph LearningLogical Reasoning	CodeCode Available	0
Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?	Jun 5, 2025	Formal LogicIn-Context Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 75Next →

All datasets LingOly BIG-bench (Formal Fallacies Syllogisms Negation)BIG-bench (Penguins In A Table)BIG-bench (Reasoning About Colored Objects)BIG-bench (Temporal Sequences)BIG-bench (Logic Grid Puzzle)BIG-bench (StrategyQA)RuWorldTree Winograd Automatic BIG-bench (Logical Fallacy Detection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude Opus	Delta_NoContext	28.8	—	Unverified
2	GPT-4o	Delta_NoContext	25.1	—	Unverified
3	Gemini 1.5 Pro	Delta_NoContext	23.4	—	Unverified
4	GPT-4	Delta_NoContext	21.5	—	Unverified
5	Command R+	Delta_NoContext	11.6	—	Unverified
6	GPT-3.5	Delta_NoContext	11.2	—	Unverified
7	Mixtral 8x7B	Delta_NoContext	6.4	—	Unverified
8	Llama 3 8B	Delta_NoContext	4.9	—	Unverified
9	Llama 3 70B	Delta_NoContext	2.9	—	Unverified
10	Gemma 7B	Delta_NoContext	2.2	—	Unverified