MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 340 papers

Title	Date	Tasks	Status
Critique-Guided Distillation: Improving Supervised Fine-tuning via Better Distillation	May 16, 2025	MathMMLU	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
An Assessment of Model-On-Model Deception	May 10, 2024	MMLUmodel	—Unverified
Cost-Saving LLM Cascades with Early Abstention	Feb 13, 2025	GSM8KMMLU	—Unverified
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning	Jul 2, 2024	Active LearningLanguage Modelling	—Unverified
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified
ALLaM: Large Language Models for Arabic and English	Jul 22, 2024	DecoderLanguage Acquisition	—Unverified
Cost-aware LLM-based Online Dataset Annotation	May 21, 2025	MMLU	—Unverified
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
GAAPO: Genetic Algorithmic Applied to Prompt Optimization	Apr 9, 2025	MMLUPrompt Engineering	—Unverified
FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy	Feb 8, 2025	MMLU	—Unverified
Continuous Approximations for Improving Quantization Aware Training of LLMs	Oct 6, 2024	MMLUModel Compression	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training	Jun 18, 2025	MedQAMMLU	—Unverified
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks	Oct 15, 2024	HumanEvalLanguage Modelling	—Unverified
GEB-1.3B: Open Lightweight Large Language Model	Jun 14, 2024	CPULanguage Modeling	—Unverified
GECKO: Generative Language Model for English, Code and Korean	May 24, 2024	kmmluLanguage Modeling	—Unverified
GEM: Empowering LLM for both Embedding Generation and Language Understanding	Jun 4, 2025	DecoderLarge Language Model	—Unverified
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning	May 20, 2025	MMLUReinforcement Learning (RL)	—Unverified
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation	Dec 4, 2024	MMLU	—Unverified
LLMs Outperform Experts on Challenging Biology Benchmarks	May 9, 2025	MMLUVirology	—Unverified
GRIN: GRadient-INformed MoE	Sep 18, 2024	HellaSwagHumanEval	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
AgentInstruct: Toward Generative Teaching with Agentic Flows	Jul 3, 2024	GSM8KMMLU	—Unverified
Evaluation of large language models using an Indian language LGBTI+ lexicon	Oct 26, 2023	Machine TranslationMMLU	—Unverified
Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks	Feb 24, 2025	Mixture-of-ExpertsMMLU	—Unverified
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering	Dec 13, 2024	Few-Shot LearningKnowledge Distillation	—Unverified
Bias Evaluation and Mitigation in Retrieval-Augmented Medical Question-Answering Systems	Mar 19, 2025	counterfactualDecision Making	—Unverified
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified
A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets	May 9, 2025	MMLU	—Unverified
LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction	Apr 1, 2024	Image CaptioningInstruction Following	—Unverified
Eir: Thai Medical Large Language Models	Sep 13, 2024	Language ModellingLarge Language Model	—Unverified
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified
Uncovering Latent Chain of Thought Vectors in Language Models	Sep 21, 2024	ARCGSM8K	—Unverified
Large Language Model Compression with Neural Architecture Search	Oct 9, 2024	Instruction FollowingLanguage Modeling	—Unverified
LM-Cocktail: Resilient Tuning of Language Models via Model Merging	Nov 22, 2023	Language ModelingLanguage Modelling	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
Efficient Model Development through Fine-tuning Transfer	Mar 25, 2025	MMLUmodel	—Unverified
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified
Efficient Federated Search for Retrieval-Augmented Generation	Feb 26, 2025	MMLURAG	—Unverified
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified
Effectiveness of Zero-shot-CoT in Japanese Prompts	Mar 9, 2025	Abstract AlgebraCollege Mathematics	—Unverified
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment	Jun 7, 2025	ARCMMLU	—Unverified
Lizard: An Efficient Linearization Framework for Large Language Models	Jul 11, 2025	Language ModelingLanguage Modelling	—Unverified
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified

Show:10 25 50

← PrevPage 3 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified