SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 321–330 of 340 papers

Title	Date	Tasks	Status	Hype
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified	0
YAYI 2: Multilingual Open-Source Large Language Models	Dec 22, 2023	MMLU	—Unverified	0
LM-Cocktail: Resilient Tuning of Language Models via Model Merging	Nov 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified	0
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified	0
ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology	Nov 16, 2023	MMLUMultiple-choice	—Unverified	0
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback	Oct 31, 2023	GSM8KMMLU	—Unverified	0
TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise	Oct 29, 2023	Data AugmentationLanguage Modeling	—Unverified	0
Evaluation of large language models using an Indian language LGBTI+ lexicon	Oct 26, 2023	Machine TranslationMMLU	—Unverified	0
Irreducible Curriculum for Language Model Pretraining	Oct 23, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 33 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified