SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 340 papers

Title	Date	Tasks	Status	Hype
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified	0
Efficient Model Development through Fine-tuning Transfer	Mar 25, 2025	MMLUmodel	—Unverified	0
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified	0
Efficient Federated Search for Retrieval-Augmented Generation	Feb 26, 2025	MMLURAG	—Unverified	0
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified	0
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified	0
Effectiveness of Zero-shot-CoT in Japanese Prompts	Mar 9, 2025	Abstract AlgebraCollege Mathematics	—Unverified	0
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment	Jun 7, 2025	ARCMMLU	—Unverified	0
Lizard: An Efficient Linearization Framework for Large Language Models	Jul 11, 2025	Language ModelingLanguage Modelling	—Unverified	0
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified	0

Show:10 25 50

← PrevPage 15 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified