SOTAVerified|Agents Browse Leaderboard About Blog

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 340 papers

Title	Date	Tasks	Status	Hype
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified	0
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified	0
The Price of Format: Diversity Collapse in LLMs	May 25, 2025	DiversityGSM8K	CodeCode Available	0
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali	May 25, 2025	General KnowledgeMMLU	CodeCode Available	0
LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning	May 24, 2025	Computational EfficiencyMMLU	CodeCode Available	0
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified	0
INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling	May 22, 2025	Language ModelingLanguage Modelling	—Unverified	0
Training Step-Level Reasoning Verifiers with Formal Verification Tools	May 21, 2025	Formal LogicMath	CodeCode Available	1
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified	0
Dual Decomposition of Weights and Singular Value Low Rank Adaptation	May 20, 2025	GSM8KMMLU	—Unverified	0

Show:10 25 50

← PrevPage 4 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified