MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 340 papers

Title	Date	Tasks	Status
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation	May 16, 2025	MathMMLU	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
An Assessment of Model-On-Model Deception	May 10, 2024	MMLUmodel	—Unverified
Cost-Saving LLM Cascades with Early Abstention	Feb 13, 2025	GSM8KMMLU	—Unverified
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning	Jul 2, 2024	Active LearningLanguage Modelling	—Unverified
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified
ALLaM: Large Language Models for Arabic and English	Jul 22, 2024	DecoderLanguage Acquisition	—Unverified
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
GAAPO: Genetic Algorithmic Applied to Prompt Optimization	Apr 9, 2025	MMLUPrompt Engineering	—Unverified
FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy	Feb 8, 2025	MMLU	—Unverified
Continuous Approximations for Improving Quantization Aware Training of LLMs	Oct 6, 2024	MMLUModel Compression	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training	Jun 18, 2025	MedQAMMLU	—Unverified
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks	Oct 15, 2024	HumanEvalLanguage Modelling	—Unverified
GEB-1.3B: Open Lightweight Large Language Model	Jun 14, 2024	CPULanguage Modeling	—Unverified
GECKO: Generative Language Model for English, Code and Korean	May 24, 2024	kmmluLanguage Modeling	—Unverified
GEM: Empowering LLM for both Embedding Generation and Language Understanding	Jun 4, 2025	DecoderLarge Language Model	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation	Dec 4, 2024	MMLU	—Unverified
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified
GRIN: GRadient-INformed MoE	Sep 18, 2024	HellaSwagHumanEval	—Unverified
Irreducible Curriculum for Language Model Pretraining	Oct 23, 2023	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 5 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	raaka	Final_score	60.91	—	Unverified
6	Waffles	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified