SOTAVerified|Agents Browse Leaderboard About

GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 439 papers

Title	Date	Tasks	Status	Hype
Adaptive Decoding via Latent Preference Optimization	Nov 14, 2024	GSM8KInstruction Following	—Unverified	0
Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models	Nov 13, 2024	GSM8K	—Unverified	0
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?	Nov 12, 2024	GSM8KMath	CodeCode Available	1
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts	Nov 11, 2024	Code GenerationGSM8K	CodeCode Available	1
Quasi-random Multi-Sample Inference for Large Language Models	Nov 9, 2024	DiversityGSM8K	—Unverified	0
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified	0
Kwai-STaR: Transform LLMs into State-Transition Reasoners	Nov 7, 2024	GSM8KMathematical Problem-Solving	—Unverified	0
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding	Nov 6, 2024	ARCGSM8K	CodeCode Available	2
Self-Consistency Preference Optimization	Nov 6, 2024	GSM8KMath	—Unverified	0
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models	Nov 2, 2024	GSM8KMath	—Unverified	0

Show:10 25 50

← PrevPage 18 of 44Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified