SOTAVerified|Agents Browse Leaderboard About

Multi-task Language Understanding

The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. https://arxiv.org/pdf/2009.03300.pdf

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 57 papers

Title	Date	Tasks	Status	Hype
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models	Oct 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Language Models are Unsupervised Multitask Learners	Feb 14, 2019	Common Sense ReasoningCoreference Resolution	CodeCode Available	1
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU	Oct 7, 2023	Multi-task Language UnderstandingWorld Knowledge	CodeCode Available	1
Merging Models with Fisher-Weighted Averaging	Nov 18, 2021	Domain AdaptationMulti-task Language Understanding	CodeCode Available	1
RoBERTa: A Robustly Optimized BERT Pretraining Approach	Jul 26, 2019	Common Sense ReasoningDocument Image Classification	CodeCode Available	1
TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages	Feb 16, 2025	Machine TranslationMMLU	CodeCode Available	1
UnifiedQA: Crossing Format Boundaries With a Single QA System	May 2, 2020	Common Sense ReasoningLanguage Modeling	CodeCode Available	1
Claude 3.5 Sonnet Model Card Addendum	Jun 24, 2024	Code GenerationMMR total	—Unverified	0
Measuring Hong Kong Massive Multi-Task Language Understanding	May 4, 2025	MMLUMulti-task Language Understanding	—Unverified	0

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.