MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–340 of 340 papers

Title	Date	Tasks	Status
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance	Feb 17, 2025	BenchmarkingDependency Parsing	—Unverified
Large Language Models Could Be Rote Learners	Apr 11, 2025	MemorizationMMLU	—Unverified
Large Language Models Often Know When They Are Being Evaluated	May 28, 2025	MMLUMultiple-choice	—Unverified
Learning from "Silly" Questions Improves Large Language Models, But Only Slightly	Nov 21, 2024	EconometricsGlobal Facts	—Unverified
Learning What Matters: Probabilistic Task Selection via Mutual Information for Model Finetuning	Jul 16, 2025	DiversityMMLU	—Unverified
Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning	Jun 25, 2023	counterfactualMath	—Unverified
Leveraging Approximate Caching for Faster Retrieval-Augmented Generation	Mar 7, 2025	Language ModelingLanguage Modelling	—Unverified
Leveraging Uncertainty Estimation for Efficient LLM Routing	Feb 16, 2025	GSM8KMMLU	—Unverified
Lizard: An Efficient Linearization Framework for Large Language Models	Jul 11, 2025	Language ModelingLanguage Modelling	—Unverified
Llama 3 Meets MoE: Efficient Upcycling	Dec 13, 2024	Mixture-of-ExpertsMMLU	—Unverified
LLaMA Beyond English: An Empirical Study on Language Capability Transfer	Jan 2, 2024	GPUInformativeness	—Unverified
LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction	Apr 1, 2024	Image CaptioningInstruction Following	—Unverified
Large Language Model Compression with Neural Architecture Search	Oct 9, 2024	Instruction FollowingLanguage Modeling	—Unverified
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering	Dec 13, 2024	Few-Shot LearningKnowledge Distillation	—Unverified
LLMs Outperform Experts on Challenging Biology Benchmarks	May 9, 2025	MMLUVirology	—Unverified
LM-Cocktail: Resilient Tuning of Language Models via Model Merging	Nov 22, 2023	Language ModelingLanguage Modelling	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
An Empirical Study of Mamba-based Language Models	Jun 12, 2024	16kIn-Context Learning	—Unverified
Measuring Hong Kong Massive Multi-Task Language Understanding	May 4, 2025	MMLUMulti-task Language Understanding	—Unverified
Measuring Progress on Scalable Oversight for Large Language Models	Nov 4, 2022	Experimental DesignLanguage Modelling	—Unverified
Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients	May 3, 2025	GSM8KMMLU	—Unverified
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning	May 15, 2025	Continual PretrainingMMLU	—Unverified
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures	Jun 3, 2024	ChatbotMMLU	—Unverified
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design	Dec 19, 2024	MMLUQuantization	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents	Nov 5, 2024	MMLU	—Unverified
An Assessment of Model-On-Model Deception	May 10, 2024	MMLUmodel	—Unverified
Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers	Jun 5, 2025	GSM8KMath	—Unverified
Model Unlearning via Sparse Autoencoder Subspace Guided Projections	May 30, 2025	Adversarial Robustnessfeature selection	—Unverified
MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing	Jun 9, 2025	GPUMixture-of-Experts	—Unverified
Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs	Dec 31, 2024	Conformal PredictionDecision Making	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
Multi-lingual Functional Evaluation for Large Language Models	Jun 25, 2025	BelebeleInstruction Following	—Unverified
Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models	Dec 15, 2024	MMLUQuantization	—Unverified
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset	Dec 3, 2024	ARCMMLU	—Unverified
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design	Jul 23, 2024	Formal LogicLanguage Modelling	—Unverified
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks	Feb 18, 2025	MathMemorization	—Unverified

Show:10 25 50

← PrevPage 7 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified