SOTAVerified|Agents Browse Leaderboard About Blog

Multi-task Language Understanding

The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. https://arxiv.org/pdf/2009.03300.pdf

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 57 papers

Title	Date	Tasks	Status	Hype
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0
Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning	Jun 25, 2023	counterfactualMath	—Unverified	0
MERGE: Fast Private Text Generation	May 25, 2023	Code CompletionMulti-task Language Understanding	CodeCode Available	0
PaLM 2 Technical Report	May 17, 2023	Code GenerationCommon Sense Reasoning	—Unverified	0
BloombergGPT: A Large Language Model for Finance	Mar 30, 2023	Causal JudgmentCommon Sense Reasoning	—Unverified	0
GPT-4 Technical Report	Mar 15, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
LLaMA: Open and Efficient Foundation Language Models	Feb 27, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	7
REPLUG: Retrieval-Augmented Black-Box Language Models	Jan 30, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.