SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 231–240 of 340 papers

Title	Date	Tasks	Status	Hype	Score
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified	0	0
BrainTransformers: SNN-LLM	Oct 3, 2024	ARCGSM8K	—Unverified	0	0
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified	0	0
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified	0	0
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified	0	0
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified	0	0
Continuous Approximations for Improving Quantization Aware Training of LLMs	Oct 6, 2024	MMLUModel Compression	—Unverified	0	0
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified	0	0
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified	0	0

Show:10 25 50

← PrevPage 24 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	raaka	Final_score	60.91	—	Unverified
6	Waffles	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified