MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 340 papers

Title	Date	Tasks	Status
An Assessment of Model-On-Model Deception	May 10, 2024	MMLUmodel	—Unverified
SUTRA: Scalable Multilingual Language Model Architecture	May 7, 2024	Computational EfficiencyHallucination	—Unverified
Octopus v4: Graph of language models	Apr 30, 2024	MMLU	—Unverified
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models	Apr 18, 2024	GSM8KMMLU	—Unverified
Post-Hoc Reversal: Are We Selecting Models Prematurely?	Apr 11, 2024	Language ModellingMMLU	CodeCode Available
LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction	Apr 1, 2024	Image CaptioningInstruction Following	—Unverified
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning	Mar 30, 2024	Language ModelingLanguage Modelling	—Unverified
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models	Feb 29, 2024	Medical Question AnsweringMedQA	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning	Feb 27, 2024	8kLanguage Modeling	CodeCode Available
ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling	Feb 21, 2024	MMLURetrieval	CodeCode Available
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models	Feb 19, 2024	MMLU	—Unverified
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards	Feb 1, 2024	Answer SelectionLanguage Modeling	CodeCode Available
Towards Uncertainty-Aware Language Agent	Jan 25, 2024	MMLUStrategyQA	—Unverified
LLaMA Beyond English: An Empirical Study on Language Capability Transfer	Jan 2, 2024	GPUInformativeness	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
YAYI 2: Multilingual Open-Source Large Language Models	Dec 22, 2023	MMLU	—Unverified
LM-Cocktail: Resilient Tuning of Language Models via Model Merging	Nov 22, 2023	Language ModelingLanguage Modelling	—Unverified
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified

Show:10 25 50

← PrevPage 13 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified