SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 340 papers

Title	Date	Tasks	Status	Hype
Bias Evaluation and Mitigation in Retrieval-Augmented Medical Question-Answering Systems	Mar 19, 2025	counterfactualDecision Making	—Unverified	0
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified	0
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets	May 9, 2025	MMLU	—Unverified	0
Learning What Matters: Probabilistic Task Selection via Mutual Information for Model Finetuning	Jul 16, 2025	DiversityMMLU	—Unverified	0
Eir: Thai Medical Large Language Models	Sep 13, 2024	Language ModellingLarge Language Model	—Unverified	0
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified	0
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified	0
Uncovering Latent Chain of Thought Vectors in Language Models	Sep 21, 2024	ARCGSM8K	—Unverified	0
Lizard: An Efficient Linearization Framework for Large Language Models	Jul 11, 2025	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 14 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified