MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 340 papers

Title	Date	Tasks	Status
Learning What Matters: Probabilistic Task Selection via Mutual Information for Model Finetuning	Jul 16, 2025	DiversityMMLU	—Unverified
Step-wise Policy for Rare-tool Knowledge (SPaRK): Offline RL that Drives Diverse Tool Use in LLMs	Jul 15, 2025	DiversityMMLU	CodeCode Available
Lizard: An Efficient Linearization Framework for Large Language Models	Jul 11, 2025	Language ModelingLanguage Modelling	—Unverified
Integrating External Tools with Large Language Models to Improve Accuracy	Jul 9, 2025	Mathematical ReasoningMMLU	—Unverified
Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate	Jul 8, 2025	Continual LearningMixture-of-Experts	CodeCode Available
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations	Jul 7, 2025	AttributeMMLU	CodeCode Available
Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training	Jul 7, 2025	General KnowledgeMMLU	—Unverified
Multi-lingual Functional Evaluation for Large Language Models	Jun 25, 2025	BelebeleInstruction Following	—Unverified
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content	Jun 25, 2025	ArticlesContinual Pretraining	—Unverified
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training	Jun 18, 2025	MedQAMMLU	—Unverified
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models	Jun 12, 2025	FairnessMMLU	—Unverified
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified
MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing	Jun 9, 2025	GPUMixture-of-Experts	—Unverified
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment	Jun 7, 2025	ARCMMLU	—Unverified
Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers	Jun 5, 2025	GSM8KMath	—Unverified
GEM: Empowering LLM for both Embedding Generation and Language Understanding	Jun 4, 2025	DecoderLarge Language Model	—Unverified
Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs	May 31, 2025	MMLU	CodeCode Available
Model Unlearning via Sparse Autoencoder Subspace Guided Projections	May 30, 2025	Adversarial Robustnessfeature selection	—Unverified
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available
Revisiting Uncertainty Estimation and Calibration of Large Language Models	May 29, 2025	Mixture-of-ExpertsMMLU	—Unverified
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors	May 29, 2025	MMLUMultiple-choice	CodeCode Available
Actor-Critic based Online Data Mixing For Language Model Pre-Training	May 29, 2025	HumanEvalLanguage Modeling	—Unverified
Large Language Models Often Know When They Are Being Evaluated	May 28, 2025	MMLUMultiple-choice	—Unverified
Capability-Based Scaling Laws for LLM Red-Teaming	May 26, 2025	MMLUPrompt Engineering	CodeCode Available
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
The Price of Format: Diversity Collapse in LLMs	May 25, 2025	DiversityGSM8K	CodeCode Available
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali	May 25, 2025	General KnowledgeMMLU	CodeCode Available
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified
LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning	May 24, 2025	Computational EfficiencyMMLU	CodeCode Available
INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling	May 22, 2025	Language ModelingLanguage Modelling	—Unverified
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified
Dual Decomposition of Weights and Singular Value Low Rank Adaptation	May 20, 2025	GSM8KMMLU	—Unverified
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst	May 20, 2025	ARCGSM8K	—Unverified
Void in Language Models	May 20, 2025	MMLUResponse Generation	CodeCode Available
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings	May 19, 2025	HumanEvalMath	CodeCode Available
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation	May 16, 2025	MathMMLU	—Unverified
Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models	May 16, 2025	DiversityMMLU	CodeCode Available
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning	May 15, 2025	Continual PretrainingMMLU	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified
SEM: Reinforcement Learning for Search-Efficient Large Language Models	May 12, 2025	MMLUreinforcement-learning	—Unverified
A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets	May 9, 2025	MMLU	—Unverified
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified
LLMs Outperform Experts on Challenging Biology Benchmarks	May 9, 2025	MMLUVirology	—Unverified
Measuring Hong Kong Massive Multi-Task Language Understanding	May 4, 2025	MMLUMulti-task Language Understanding	—Unverified
Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients	May 3, 2025	GSM8KMMLU	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified

Show:10 25 50

← PrevPage 3 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified