MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 340 papers

Title	Date	Tasks	Status	Hype
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models	Jun 23, 2024	Machine TranslationMMLU	CodeCode Available	1
LiveMind: Low-latency Large Language Models with Simultaneous Inference	Jun 20, 2024	Collaborative InferenceLanguage Modeling	CodeCode Available	1
OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning	May 28, 2024	MMLU	CodeCode Available	1
Instruction Tuning With Loss Over Instructions	May 23, 2024	HumanEvalMMLU	CodeCode Available	1
LawInstruct: A Resource for Studying Language Model Adaptation to the Legal Domain	Apr 2, 2024	Argument MiningDecision Making	CodeCode Available	1
Unfamiliar Finetuning Examples Control How Language Models Hallucinate	Mar 8, 2024	MMLUMultiple-choice	CodeCode Available	1
To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering	Mar 4, 2024	MedQAMMLU	CodeCode Available	1
Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers	Feb 27, 2024	MMLU	CodeCode Available	1
Gemini: A Family of Highly Capable Multimodal Models	Dec 19, 2023	1 Image, 2*2 StitchingArithmetic Reasoning	CodeCode Available	1
Efficient Online Data Mixing For Language Model Pre-Training	Dec 5, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Prompt Optimization via Adversarial In-Context Learning	Dec 5, 2023	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
ArcMMLU: A Library and Information Science Benchmark for Large Language Models	Nov 30, 2023	MMLU	CodeCode Available	1
ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization	Nov 22, 2023	GPULanguage Modelling	CodeCode Available	1
An Open Source Data Contamination Report for Large Language Models	Oct 26, 2023	HellaSwagLanguage Modeling	CodeCode Available	1
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models	Oct 8, 2023	MMLUNatural Language Understanding	CodeCode Available	1
A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration	Oct 3, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	1
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch	Sep 19, 2023	BelebeleMMLU	CodeCode Available	1
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment	Aug 18, 2023	MMLURed Teaming	CodeCode Available	1
Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In	May 27, 2023	MMLURetrieval	CodeCode Available	1
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models	May 24, 2023	Language ModellingMath	CodeCode Available	1
Model-Generated Pretraining Signals Improves Zero-Shot Generalization of Text-to-Text Transformers	May 21, 2023	MMLUZero-shot Generalization	CodeCode Available	1
Towards Expert-Level Medical Question Answering with Large Language Models	May 16, 2023	Medical Question AnsweringMedQA	CodeCode Available	1
From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning	Apr 17, 2023	MMLUZero-shot Generalization	CodeCode Available	1
Large Language Models Encode Clinical Knowledge	Dec 26, 2022	Clinical KnowledgeMedQA	CodeCode Available	1
UL2: Unifying Language Learning Paradigms	May 10, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified