SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–260 of 439 papers

Title	Date	Tasks	Status	Hype	Score
A Careful Examination of Large Language Model Performance on Grade School Arithmetic	May 1, 2024	GSM8KLanguage Modeling	—Unverified	0	0
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning	Apr 18, 2025	AllGSM8K	—Unverified	0	0
Uncertainty Aware Learning for Language Model Alignment	Jun 7, 2024	GSM8KLanguage Modeling	—Unverified	0	0
No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function	Sep 1, 2023	GSM8KMathematical Reasoning	—Unverified	0	0
Nudging: Inference-time Alignment of LLMs via Guided Decoding	Oct 11, 2024	General KnowledgeGSM8K	—Unverified	0	0
Fine-Grained Self-Endorsement Improves Factuality and Reasoning	Feb 23, 2024	GSM8KLanguage Modeling	—Unverified	0	0
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning	Oct 8, 2024	GSM8KHallucination	—Unverified	0	0
On Designing Effective RL Reward at Training Time for LLM Reasoning	Oct 19, 2024	GSM8KMath	—Unverified	0	0
Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs	Feb 16, 2025	GSM8KThompson Sampling	—Unverified	0	0
Making Large Language Models Better Reasoners with Step-Aware Verifier	Jun 6, 2022	Arithmetic ReasoningFew-Shot Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 26 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified