SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–340 of 340 papers

Title	Date	Tasks	Status	Hype
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models	May 24, 2023	Language ModellingMath	CodeCode Available	1
Model-Generated Pretraining Signals Improves Zero-Shot Generalization of Text-to-Text Transformers	May 21, 2023	MMLUZero-shot Generalization	CodeCode Available	1
Towards Expert-Level Medical Question Answering with Large Language Models	May 16, 2023	Medical Question AnsweringMedQA	CodeCode Available	1
From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning	Apr 17, 2023	MMLUZero-shot Generalization	CodeCode Available	1
ART: Automatic multi-step reasoning and tool-use for large language models	Mar 16, 2023	MMLU	CodeCode Available	6
REPLUG: Retrieval-Augmented Black-Box Language Models	Jan 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
Inconsistencies in Masked Language Models	Dec 30, 2022	LAMBADAMMLU	CodeCode Available	0
Large Language Models Encode Clinical Knowledge	Dec 26, 2022	Clinical KnowledgeMedQA	CodeCode Available	1
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Measuring Progress on Scalable Oversight for Large Language Models	Nov 4, 2022	Experimental DesignLanguage Modelling	—Unverified	0
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified	0
Atlas: Few-shot Learning with Retrieval Augmented Language Models	Aug 5, 2022	Fact CheckingFew-Shot Learning	CodeCode Available	2
UL2: Unifying Language Learning Paradigms	May 10, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6

Show:10 25 50

← PrevPage 14 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified