MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 340 papers

Title	Date	Tasks	Status
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation	May 16, 2025	MathMMLU	—Unverified
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting	Jun 17, 2024	EthicsMMLU	—Unverified
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling	Jun 21, 2024	ClusteringMMLU	—Unverified
DEM: Distribution Edited Model for Training with Mixed Data Distributions	Jun 21, 2024	DiversityInstruction Following	—Unverified
Detecting Benchmark Contamination Through Watermarking	Feb 24, 2025	ARCMMLU	—Unverified
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?	Feb 26, 2025	GSM8KMMLU	—Unverified
Distributional Scaling Laws for Emergent Capabilities	Feb 24, 2025	MMLU	—Unverified
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
Does your data spark joy? Performance gains from domain upsampling at the end of training	Jun 5, 2024	GSM8KHumanEval	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
Domain-Adaptive Continued Pre-Training of Small Language Models	Apr 13, 2025	Domain AdaptationHellaSwag	—Unverified
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining	Sep 30, 2024	Continual PretrainingDomain Adaptation	—Unverified
Dual Decomposition of Weights and Singular Value Low Rank Adaptation	May 20, 2025	GSM8KMMLU	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Effectiveness of Zero-shot-CoT in Japanese Prompts	Mar 9, 2025	Abstract AlgebraCollege Mathematics	—Unverified
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified
Efficient Federated Search for Retrieval-Augmented Generation	Feb 26, 2025	MMLURAG	—Unverified
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified
Efficient Model Development through Fine-tuning Transfer	Mar 25, 2025	MMLUmodel	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
Eir: Thai Medical Large Language Models	Sep 13, 2024	Language ModellingLarge Language Model	—Unverified
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified

Show:10 25 50

← PrevPage 7 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified