SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 439 papers

Title	Date	Tasks	Status	Hype
Large (Vision) Language Models are Unsupervised In-Context Learners	Apr 3, 2025	GSM8KIn-Context Learning	CodeCode Available	1
Entropy-Based Adaptive Weighting for Self-Training	Mar 31, 2025	GSM8KMath	CodeCode Available	1
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging	Mar 21, 2025	GSM8KSafety Alignment	CodeCode Available	1
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models	Mar 16, 2025	Data AugmentationGSM8K	CodeCode Available	1
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models	Mar 4, 2025	GSM8KMath	CodeCode Available	1
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving	Feb 27, 2025	GSM8KMath	CodeCode Available	1
Self-Training Elicits Concise Reasoning in Large Language Models	Feb 27, 2025	GSM8KIn-Context Learning	CodeCode Available	1
SMART: Self-Aware Agent for Tool Overuse Mitigation	Feb 17, 2025	GSM8KLarge Language Model	CodeCode Available	1
MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking	Jan 20, 2025	Decision MakingGSM8K	CodeCode Available	1
Entropy-Regularized Process Reward Model	Dec 15, 2024	GSM8KMath	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified