SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 261–270 of 439 papers

Title	Date	Tasks	Status	Hype
Learning to Reason via Self-Iterative Process Feedback for Small Language Models	Dec 11, 2024	Domain GeneralizationGSM8K	—Unverified	0
LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint	Feb 24, 2025	GSM8K	—Unverified	0
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified	0
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning	Oct 16, 2023	Code GenerationGSM8K	—Unverified	0
Leveraging Uncertainty Estimation for Efficient LLM Routing	Feb 16, 2025	GSM8KMMLU	—Unverified	0
LiteSearch: Efficacious Tree Search for LLM	Jun 29, 2024	GSM8KMathematical Reasoning	—Unverified	0
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models	May 25, 2025	GSM8KHumanEval	—Unverified	0
LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ	Sep 25, 2024	ChatbotGSM8K	—Unverified	0
Meaning-Typed Programming: Language Abstraction and Runtime for Model-Integrated Applications	May 14, 2024	GSM8KMath	—Unverified	0
DavIR: Data Selection via Implicit Reward for Large Language Models	Oct 16, 2023	Causal Language ModelingGSM8K	—Unverified	0

Show:10 25 50

← PrevPage 27 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified