Multi-task Language Understanding

The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. https://arxiv.org/pdf/2009.03300.pdf

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 57 papers

Title	Date	Tasks	Status	Hype
Mistral 7B	Oct 10, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU	Oct 7, 2023	Multi-task Language UnderstandingWorld Knowledge	CodeCode Available	1
Are Human-generated Demonstrations Necessary for In-context Learning?	Sep 26, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	1
Textbooks Are All You Need II: phi-1.5 technical report	Sep 11, 2023	AllCode Generation	CodeCode Available	0
Llama 2: Open Foundation and Fine-Tuned Chat Models	Jul 18, 2023	Arithmetic Reasoning	CodeCode Available	8
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0
Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning	Jun 25, 2023	counterfactualMath	—Unverified	0
MERGE: Fast Private Text Generation	May 25, 2023	Code CompletionMulti-task Language Understanding	CodeCode Available	0
PaLM 2 Technical Report	May 17, 2023	Code GenerationCommon Sense Reasoning	CodeCode Available	0
BloombergGPT: A Large Language Model for Finance	Mar 30, 2023	Causal JudgmentCommon Sense Reasoning	CodeCode Available	0
GPT-4 Technical Report	Mar 15, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
LLaMA: Open and Efficient Foundation Language Models	Feb 27, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	7
REPLUG: Retrieval-Augmented Black-Box Language Models	Jan 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified	0
GLM-130B: An Open Bilingual Pre-trained Model	Oct 5, 2022	Language ModelingLanguage Modelling	CodeCode Available	6
Atlas: Few-shot Learning with Retrieval Augmented Language Models	Aug 5, 2022	Fact CheckingFew-Shot Learning	CodeCode Available	2
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
UL2: Unifying Language Learning Paradigms	May 10, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
GPT-NeoX-20B: An Open-Source Autoregressive Language Model	Apr 14, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
Scaling Language Models: Methods, Analysis & Insights from Training Gopher	Dec 8, 2021	Abstract AlgebraAnachronisms	CodeCode Available	2
Merging Models with Fisher-Weighted Averaging	Nov 18, 2021	Domain AdaptationMulti-task Language Understanding	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.