MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 340 papers

Title	Date	Tasks	Status
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?	Feb 26, 2025	GSM8KMMLU	—Unverified
Distributional Scaling Laws for Emergent Capabilities	Feb 24, 2025	MMLU	—Unverified
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
Does your data spark joy? Performance gains from domain upsampling at the end of training	Jun 5, 2024	GSM8KHumanEval	—Unverified
Do Large Language Models Mirror Cognitive Language Processing?	Feb 28, 2024	ChatbotLogical Reasoning	—Unverified
Domain-Adaptive Continued Pre-Training of Small Language Models	Apr 13, 2025	Domain AdaptationHellaSwag	—Unverified
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining	Sep 30, 2024	Continual PretrainingDomain Adaptation	—Unverified
Dual Decomposition of Weights and Singular Value Low Rank Adaptation	May 20, 2025	GSM8KMMLU	—Unverified
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge	Mar 13, 2024	Dialogue EvaluationHumanEval	—Unverified
Effectiveness of Zero-shot-CoT in Japanese Prompts	Mar 9, 2025	Abstract AlgebraCollege Mathematics	—Unverified
Efficient Data Selection at Scale via Influence Distillation	May 25, 2025	GSM8KMMLU	—Unverified
Efficient Federated Search for Retrieval-Augmented Generation	Feb 26, 2025	MMLURAG	—Unverified
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified
Efficient Model Development through Fine-tuning Transfer	Mar 25, 2025	MMLUmodel	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
Eir: Thai Medical Large Language Models	Sep 13, 2024	Language ModellingLarge Language Model	—Unverified
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Bias Evaluation and Mitigation in Retrieval-Augmented Medical Question-Answering Systems	Mar 19, 2025	counterfactualDecision Making	—Unverified
Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks	Feb 24, 2025	Mixture-of-ExpertsMMLU	—Unverified
Evaluation of large language models using an Indian language LGBTI+ lexicon	Oct 26, 2023	Machine TranslationMMLU	—Unverified
Few-Shot Recalibration of Language Models	Mar 27, 2024	MathMMLU	—Unverified
FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy	Feb 8, 2025	MMLU	—Unverified
GAAPO: Genetic Algorithmic Applied to Prompt Optimization	Apr 9, 2025	MMLUPrompt Engineering	—Unverified
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training	Jun 18, 2025	MedQAMMLU	—Unverified
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks	Oct 15, 2024	HumanEvalLanguage Modelling	—Unverified
GEB-1.3B: Open Lightweight Large Language Model	Jun 14, 2024	CPULanguage Modeling	—Unverified
GECKO: Generative Language Model for English, Code and Korean	May 24, 2024	kmmluLanguage Modeling	—Unverified
GEM: Empowering LLM for both Embedding Generation and Language Understanding	Jun 4, 2025	DecoderLarge Language Model	—Unverified
A Scaling Law for Token Efficiency in LLM Fine-Tuning Under Fixed Compute Budgets	May 9, 2025	MMLU	—Unverified
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation	Dec 4, 2024	MMLU	—Unverified
GRIN: GRadient-INformed MoE	Sep 18, 2024	HellaSwagHumanEval	—Unverified
HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI	Jan 26, 2025	MMLUMultiple-choice	—Unverified
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models	Feb 19, 2024	MMLU	—Unverified
Humanity's Last Exam	Jan 24, 2025	Humanity's Last ExamLanguage Modeling	—Unverified
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents	Dec 1, 2024	Mathematical ReasoningMMLU	—Unverified
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding	Jan 27, 2025	BenchmarkingDiversity	—Unverified
INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling	May 22, 2025	Language ModelingLanguage Modelling	—Unverified
Inference-Time-Compute: More Faithful? A Research Note	Jan 14, 2025	AttributeMMLU	—Unverified
Instance-adaptive Zero-shot Chain-of-Thought Prompting	Sep 30, 2024	GSM8KMath	—Unverified
Instruction Tuning with Human Curriculum	Oct 14, 2023	ARCMMLU	—Unverified
Integrating External Tools with Large Language Models to Improve Accuracy	Jul 9, 2025	Mathematical ReasoningMMLU	—Unverified
Interleaved Reasoning for Large Language Models via Reinforcement Learning	May 26, 2025	Logical ReasoningMath	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
Irreducible Curriculum for Language Model Pretraining	Oct 23, 2023	Language ModelingLanguage Modelling	—Unverified
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs	Jan 21, 2025	GSM8KIn-Context Learning	—Unverified
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
KurTail : Kurtosis-based LLM Quantization	Mar 3, 2025	GPULanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified