MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 340 papers

Title	Date	Tasks	Status
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models	Apr 4, 2025	GSM8KMathematical Reasoning	—Unverified
AcademicGPT: Empowering Academic Research	Nov 21, 2023	Abstract generationGeneral Knowledge	—Unverified
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment	Jun 7, 2025	ARCMMLU	—Unverified
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models	Sep 7, 2024	MMLUTruthfulQA	—Unverified
Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers	Jun 5, 2025	GSM8KMath	—Unverified
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models	Aug 16, 2024	GSM8KMMLU	—Unverified
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst	May 20, 2025	ARCGSM8K	—Unverified
SEM: Reinforcement Learning for Search-Efficient Large Language Models	May 12, 2025	MMLUreinforcement-learning	—Unverified
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified
YAYI 2: Multilingual Open-Source Large Language Models	Dec 22, 2023	MMLU	—Unverified
Spanish and LLM Benchmarks: is MMLU Lost in Translation?	May 28, 2024	MMLUTranslation	—Unverified
SSR: Alignment-Aware Modality Connector for Speech Language Models	Sep 30, 2024	Language ModelingLanguage Modelling	—Unverified
Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework	Mar 7, 2025	Conformal PredictionMedical Question Answering	—Unverified
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning	Oct 18, 2024	MathMathematical Reasoning	—Unverified
SuperBPE: Space Travel for Language Models	Mar 17, 2025	Inductive BiasMMLU	—Unverified
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models	Jun 12, 2025	FairnessMMLU	—Unverified
SUTRA: Scalable Multilingual Language Model Architecture	May 7, 2024	Computational EfficiencyHallucination	—Unverified
Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs	Feb 23, 2025	Data PoisoningDiagnostic	—Unverified
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning	Mar 7, 2025	GPUMath	—Unverified
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models	Oct 9, 2023	MMLU	—Unverified
TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise	Oct 29, 2023	Data AugmentationLanguage Modeling	—Unverified
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback	Oct 31, 2023	GSM8KMMLU	—Unverified
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance	Jun 17, 2024	counterfactualMMLU	—Unverified
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified
The Poison of Alignment	Aug 25, 2023	MMLU	—Unverified
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
Uncovering Latent Chain of Thought Vectors in Language Models	Sep 21, 2024	ARCGSM8K	—Unverified
Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark	Feb 10, 2025	MMLUMorphological Analysis	—Unverified
Towards Multilingual LLM Evaluation for European Languages	Oct 11, 2024	ARCGSM8K	—Unverified
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception	Feb 17, 2025	MMLUNatural Questions	—Unverified
Towards Uncertainty-Aware Language Agent	Jan 25, 2024	MMLUStrategyQA	—Unverified
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified
Transferable text data distillation by trajectory matching	Apr 14, 2025	ARCLarge Language Model	—Unverified
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests	Feb 20, 2025	Logical ReasoningMMLU	—Unverified
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified
Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size	Mar 6, 2025	MMLUQuantization	—Unverified
Unraveling Indirect In-Context Learning Using Influence Functions	Jan 1, 2025	In-Context LearningInformativeness	—Unverified
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach	Mar 13, 2025	Formal LogicMathematical Reasoning	—Unverified
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs	Dec 17, 2024	MMLU	—Unverified
Upcycling Large Language Models into Mixture of Experts	Oct 10, 2024	Mixture-of-ExpertsMMLU	—Unverified
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content	Jun 25, 2025	ArticlesContinual Pretraining	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified
BrainTransformers: SNN-LLM	Oct 3, 2024	ARCGSM8K	—Unverified
B-score: Detecting biases in large language models using response history	May 24, 2025	MMLU	—Unverified
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
Model Unlearning via Sparse Autoencoder Subspace Guided Projections	May 30, 2025	Adversarial Robustnessfeature selection	—Unverified
MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing	Jun 9, 2025	GPUMixture-of-Experts	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified