SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–410 of 439 papers

Title	Date	Tasks	Status	Hype	Score
Automatic Prompt Selection for Large Language Models	Apr 3, 2024	GSM8KQuestion Answering	—Unverified	0	0
AutoJudge: Judge Decoding Without Manual Annotation	Apr 28, 2025	GSM8KLarge Language Model	—Unverified	0	0
Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models	Jul 12, 2024	GSM8KMath	—Unverified	0	0
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified	0	0
Towards Multilingual LLM Evaluation for European Languages	Oct 11, 2024	ARCGSM8K	—Unverified	0	0
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified	0	0
Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions	Dec 22, 2024	GSM8KMath	—Unverified	0	0
Towards Intrinsic Self-Correction Enhancement in Monte Carlo Tree Search Boosted Reasoning via Iterative Preference Learning	Dec 23, 2024	Arithmetic ReasoningGSM8K	—Unverified	0	0
Arithmetic Reasoning with LLM: Prolog Generation & Permutation	May 28, 2024	Arithmetic ReasoningData Augmentation	—Unverified	0	0
Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition	Apr 29, 2025	GSM8KKnowledge Distillation	—Unverified	0	0

Show:10 25 50

← PrevPage 41 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified