SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 161–170 of 340 papers

Title	Date	Tasks	Status	Hype	Score
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified	0	0
ORI: O Routing Intelligence	Feb 14, 2025	ARCMMLU	—Unverified	0	0
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified	0	0
Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback	Jun 21, 2024	Information RetrievalLearning-To-Rank	—Unverified	0	0
PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation	Feb 27, 2025	MMLU	—Unverified	0	0
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified	0	0
BOTS-LM: Training Large Language Models for Setswana	Aug 5, 2024	Computational EfficiencyLanguage Modeling	—Unverified	0	0
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs	Sep 30, 2024	ARCDiversity	—Unverified	0	0
Project MPG: towards a generalized performance benchmark for LLM capabilities	Oct 28, 2024	BenchmarkingChatbot	—Unverified	0	0
Pruning Large Language Models via Accuracy Predictor	Sep 18, 2023	MMLUModel Compression	—Unverified	0	0

Show:10 25 50

← PrevPage 17 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified