SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 331–340 of 340 papers

Title	Date	Tasks	Status	Hype
Instruction Tuning with Human Curriculum	Oct 14, 2023	ARCMMLU	—Unverified	0
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models	Oct 9, 2023	MMLU	—Unverified	0
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models	Sep 27, 2023	HumanEvalLanguage Modeling	CodeCode Available	0
Pruning Large Language Models via Accuracy Predictor	Sep 18, 2023	MMLUModel Compression	—Unverified	0
Empowering Cross-lingual Abilities of Instruction-tuned Large Language Models by Translation-following demonstrations	Aug 27, 2023	Instruction FollowingMMLU	CodeCode Available	0
The Poison of Alignment	Aug 25, 2023	MMLU	—Unverified	0
Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning	Jun 25, 2023	counterfactualMath	—Unverified	0
Inconsistencies in Masked Language Models	Dec 30, 2022	LAMBADAMMLU	CodeCode Available	0
Measuring Progress on Scalable Oversight for Large Language Models	Nov 4, 2022	Experimental DesignLanguage Modelling	—Unverified	0
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 34 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified