SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 211–220 of 340 papers

Title	Date	Tasks	Status	Hype
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified	0
YAYI 2: Multilingual Open-Source Large Language Models	Dec 22, 2023	MMLU	—Unverified	0
Spanish and LLM Benchmarks: is MMLU Lost in Translation?	May 28, 2024	MMLUTranslation	—Unverified	0
SSR: Alignment-Aware Modality Connector for Speech Language Models	Sep 30, 2024	Language ModelingLanguage Modelling	—Unverified	0
Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework	Mar 7, 2025	Conformal PredictionMedical Question Answering	—Unverified	0
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning	Oct 18, 2024	MathMathematical Reasoning	—Unverified	0
SuperBPE: Space Travel for Language Models	Mar 17, 2025	Inductive BiasMMLU	—Unverified	0
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models	Jun 12, 2025	FairnessMMLU	—Unverified	0
SUTRA: Scalable Multilingual Language Model Architecture	May 7, 2024	Computational EfficiencyHallucination	—Unverified	0
Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs	Feb 23, 2025	Data PoisoningDiagnostic	—Unverified	0

Show:10 25 50

← PrevPage 22 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified