MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–340 of 340 papers

Title	Date	Tasks	Status
An Assessment of Model-On-Model Deception	May 10, 2024	MMLUmodel	—Unverified
SUTRA: Scalable Multilingual Language Model Architecture	May 7, 2024	Computational EfficiencyHallucination	—Unverified
Octopus v4: Graph of language models	Apr 30, 2024	MMLU	—Unverified
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models	Apr 18, 2024	GSM8KMMLU	—Unverified
Post-Hoc Reversal: Are We Selecting Models Prematurely?	Apr 11, 2024	Language ModellingMMLU	CodeCode Available
LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction	Apr 1, 2024	Image CaptioningInstruction Following	—Unverified
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning	Mar 30, 2024	Language ModelingLanguage Modelling	—Unverified
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models	Feb 29, 2024	Medical Question AnsweringMedQA	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning	Feb 27, 2024	8kLanguage Modeling	CodeCode Available
ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling	Feb 21, 2024	MMLURetrieval	CodeCode Available
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models	Feb 19, 2024	MMLU	—Unverified
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards	Feb 1, 2024	Answer SelectionLanguage Modeling	CodeCode Available
Towards Uncertainty-Aware Language Agent	Jan 25, 2024	MMLUStrategyQA	—Unverified
LLaMA Beyond English: An Empirical Study on Language Capability Transfer	Jan 2, 2024	GPUInformativeness	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
YAYI 2: Multilingual Open-Source Large Language Models	Dec 22, 2023	MMLU	—Unverified
LM-Cocktail: Resilient Tuning of Language Models via Model Merging	Nov 22, 2023	Language ModelingLanguage Modelling	—Unverified
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology	Nov 16, 2023	MMLUMultiple-choice	—Unverified
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback	Oct 31, 2023	GSM8KMMLU	—Unverified
TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise	Oct 29, 2023	Data AugmentationLanguage Modeling	—Unverified
Evaluation of large language models using an Indian language LGBTI+ lexicon	Oct 26, 2023	Machine TranslationMMLU	—Unverified
Irreducible Curriculum for Language Model Pretraining	Oct 23, 2023	Language ModelingLanguage Modelling	—Unverified
Instruction Tuning with Human Curriculum	Oct 14, 2023	ARCMMLU	—Unverified
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models	Oct 9, 2023	MMLU	—Unverified
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models	Sep 27, 2023	HumanEvalLanguage Modeling	CodeCode Available
Pruning Large Language Models via Accuracy Predictor	Sep 18, 2023	MMLUModel Compression	—Unverified
Empowering Cross-lingual Abilities of Instruction-tuned Large Language Models by Translation-following demonstrations	Aug 27, 2023	Instruction FollowingMMLU	CodeCode Available
The Poison of Alignment	Aug 25, 2023	MMLU	—Unverified
Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning	Jun 25, 2023	counterfactualMath	—Unverified
Inconsistencies in Masked Language Models	Dec 30, 2022	LAMBADAMMLU	CodeCode Available
Measuring Progress on Scalable Oversight for Large Language Models	Nov 4, 2022	Experimental DesignLanguage Modelling	—Unverified
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified

Show:10 25 50

← PrevPage 7 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified