Multi-task Language Understanding

The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. https://arxiv.org/pdf/2009.03300.pdf

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 57 papers

Title	Date	Tasks	Status	Hype	Score
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning	Jan 22, 2025	Mathematical ReasoningMulti-task Language Understanding	CodeCode Available	15	5
Llama 2: Open Foundation and Fine-Tuned Chat Models	Jul 18, 2023	Arithmetic Reasoning	CodeCode Available	8	5
LLaMA: Open and Efficient Foundation Language Models	Feb 27, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	7	5
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6	5
GLM-130B: An Open Bilingual Pre-trained Model	Oct 5, 2022	Language ModelingLanguage Modelling	CodeCode Available	6	5
GPT-4 Technical Report	Mar 15, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6	5
Mistral 7B	Oct 10, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6	5
The Llama 3 Herd of Models	Jul 31, 2024	answerability predictionLanguage Modeling	CodeCode Available	4	5
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4	5
Mixtral of Experts	Jan 8, 2024	Code GenerationCommon Sense Reasoning	CodeCode Available	4	5
REPLUG: Retrieval-Augmented Black-Box Language Models	Jan 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	3	5
Evaluating Large Language Models Trained on Code	Jul 7, 2021	Code GenerationHumanEval	CodeCode Available	3	5
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3	5
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark	Jun 3, 2024	MMLUMulti-task Language Understanding	CodeCode Available	3	5
Language Models are Few-Shot Learners	May 28, 2020	answerability predictionArticles	CodeCode Available	3	5
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2	5
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling	Jun 18, 2024	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2	5
Scaling Language Models: Methods, Analysis & Insights from Training Gopher	Dec 8, 2021	Abstract AlgebraAnachronisms	CodeCode Available	2	5
Atlas: Few-shot Learning with Retrieval Augmented Language Models	Aug 5, 2022	Fact CheckingFew-Shot Learning	CodeCode Available	2	5
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks	Jan 5, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	2	5
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2	5
Routoo: Learning to Route to Large Language Models Effectively	Jan 25, 2024	MMLUMulti-task Language Understanding	CodeCode Available	2	5
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations	Sep 26, 2019	Common Sense ReasoningGPU	CodeCode Available	2	5
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark	Dec 19, 2024	MMLUMultiple-choice	CodeCode Available	2	5
Measuring Massive Multitask Language Understanding	Sep 7, 2020	Elementary MathematicsMulti-task Language Understanding	CodeCode Available	2	5

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.