MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 340 papers

Title	Date	Tasks	Status
Unraveling Indirect In-Context Learning Using Influence Functions	Jan 1, 2025	In-Context LearningInformativeness	—Unverified
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach	Mar 13, 2025	Formal LogicMathematical Reasoning	—Unverified
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs	Dec 17, 2024	MMLU	—Unverified
Upcycling Large Language Models into Mixture of Experts	Oct 10, 2024	Mixture-of-ExpertsMMLU	—Unverified
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content	Jun 25, 2025	ArticlesContinual Pretraining	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified
BrainTransformers: SNN-LLM	Oct 3, 2024	ARCGSM8K	—Unverified
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified
Continuous Approximations for Improving Quantization Aware Training of LLMs	Oct 6, 2024	MMLUModel Compression	—Unverified
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning	Jul 2, 2024	Active LearningLanguage Modelling	—Unverified
Cost-Saving LLM Cascades with Early Abstention	Feb 13, 2025	GSM8KMMLU	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation	May 16, 2025	MathMMLU	—Unverified
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting	Jun 17, 2024	EthicsMMLU	—Unverified
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling	Jun 21, 2024	ClusteringMMLU	—Unverified
DEM: Distribution Edited Model for Training with Mixed Data Distributions	Jun 21, 2024	DiversityInstruction Following	—Unverified
Detecting Benchmark Contamination Through Watermarking	Feb 24, 2025	ARCMMLU	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified