SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 161–170 of 340 papers

Title	Date	Tasks	Status	Hype
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents	Dec 1, 2024	Mathematical ReasoningMMLU	—Unverified	0
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified	0
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified	0
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified	0
Learning from "Silly" Questions Improves Large Language Models, But Only Slightly	Nov 21, 2024	EconometricsGlobal Facts	—Unverified	0
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified	0
Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models	Nov 14, 2024	Domain GeneralizationIn-Context Learning	—Unverified	0
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified	0
Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents	Nov 5, 2024	MMLU	—Unverified	0
TODO: Enhancing LLM Alignment with Ternary Preferences	Nov 2, 2024	ARCMMLU	CodeCode Available	0

Show:10 25 50

← PrevPage 17 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	raaka	Final_score	60.91	—	Unverified
6	Waffles	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified