SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 111–120 of 439 papers

Title	Date	Tasks	Status	Hype	Score
Language Models as Science Tutors	Feb 16, 2024	GSM8KMath	CodeCode Available	1	5
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
IRanker: Towards Ranking Foundation Model	Jun 25, 2025	GSM8Kmodel	CodeCode Available	1	5
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models	Mar 4, 2024	Data AugmentationGSM8K	CodeCode Available	1	5
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation	Feb 21, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
GRACE: Discriminator-Guided Chain-of-Thought Reasoning	May 24, 2023	GSM8KMath	CodeCode Available	1	5
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations	Oct 31, 2023	GSM8KMath	CodeCode Available	1	5
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates	Feb 28, 2024	GSM8KSafety Alignment	CodeCode Available	1	5
Large Language Models as Optimizers	Sep 7, 2023	GSM8K	CodeCode Available	1	5

Show:10 25 50

← PrevPage 12 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified