SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 439 papers

Title	Date	Tasks	Status	Hype
Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach	Mar 17, 2025	GSM8KMath	—Unverified	0
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models	Mar 16, 2025	Data AugmentationGSM8K	CodeCode Available	1
Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models	Mar 14, 2025	Checkmate In OneGSM8K	—Unverified	0
Position-Aware Depth Decay Decoding (D^3): Boosting Large Language Model Inference Efficiency	Mar 11, 2025	GSM8KLanguage Modeling	—Unverified	0
SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning	Mar 6, 2025	GSM8KMath	—Unverified	0
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified	0
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models	Mar 4, 2025	GSM8KMath	CodeCode Available	1
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability	Mar 4, 2025	GSM8KLogical Reasoning	CodeCode Available	0
CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation	Feb 28, 2025	GSM8K	CodeCode Available	0
Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge	Feb 27, 2025	GSM8KHumanEval	—Unverified	0

Show:10 25 50

← PrevPage 10 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified