MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 340 papers

Title	Date	Tasks	Status
SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation	Apr 17, 2025	AttributeMachine Unlearning	CodeCode Available
Transferable text data distillation by trajectory matching	Apr 14, 2025	ARCLarge Language Model	—Unverified
Probing then Editing Response Personality of Large Language Models	Apr 14, 2025	MMLU	CodeCode Available
Domain-Adaptive Continued Pre-Training of Small Language Models	Apr 13, 2025	Domain AdaptationHellaSwag	—Unverified
Large Language Models Could Be Rote Learners	Apr 11, 2025	MemorizationMMLU	—Unverified
GAAPO: Genetic Algorithmic Applied to Prompt Optimization	Apr 9, 2025	MMLUPrompt Engineering	—Unverified
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models	Apr 4, 2025	GSM8KMathematical Reasoning	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified
Effective Skill Unlearning through Intervention and Abstention	Mar 27, 2025	General KnowledgeMath	CodeCode Available
Efficient Model Development through Fine-tuning Transfer	Mar 25, 2025	MMLUmodel	—Unverified
ChatBench: From Static Benchmarks to Human-AI Evaluation	Mar 22, 2025	MathMMLU	CodeCode Available
Bias Evaluation and Mitigation in Retrieval-Augmented Medical Question-Answering Systems	Mar 19, 2025	counterfactualDecision Making	—Unverified
SuperBPE: Space Travel for Language Models	Mar 17, 2025	Inductive BiasMMLU	—Unverified
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach	Mar 13, 2025	Formal LogicMathematical Reasoning	—Unverified
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Effectiveness of Zero-shot-CoT in Japanese Prompts	Mar 9, 2025	Abstract AlgebraCollege Mathematics	—Unverified
Leveraging Approximate Caching for Faster Retrieval-Augmented Generation	Mar 7, 2025	Language ModelingLanguage Modelling	—Unverified
Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework	Mar 7, 2025	Conformal PredictionMedical Question Answering	—Unverified
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning	Mar 7, 2025	GPUMath	—Unverified
Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size	Mar 6, 2025	MMLUQuantization	—Unverified
KurTail : Kurtosis-based LLM Quantization	Mar 3, 2025	GPULanguage Modeling	—Unverified
When an LLM is apprehensive about its answers -- and when its uncertainty is justified	Mar 3, 2025	MathMMLU	CodeCode Available
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation	Feb 27, 2025	MMLU	—Unverified
Voting or Consensus? Decision-Making in Multi-Agent Debate	Feb 26, 2025	Decision MakingMMLU	CodeCode Available
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?	Feb 26, 2025	GSM8KMMLU	—Unverified
Efficient Federated Search for Retrieval-Augmented Generation	Feb 26, 2025	MMLURAG	—Unverified
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging	Feb 25, 2025	MMLUMultiple-choice	CodeCode Available
Detecting Benchmark Contamination Through Watermarking	Feb 24, 2025	ARCMMLU	—Unverified
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified
Distributional Scaling Laws for Emergent Capabilities	Feb 24, 2025	MMLU	—Unverified
Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks	Feb 24, 2025	Mixture-of-ExpertsMMLU	—Unverified
Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs	Feb 23, 2025	Data PoisoningDiagnostic	—Unverified
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests	Feb 20, 2025	Logical ReasoningMMLU	—Unverified
Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models	Feb 20, 2025	HellaSwagMemorization	—Unverified
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective	Feb 20, 2025	GSM8KMath	CodeCode Available
None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks	Feb 18, 2025	MathMemorization	—Unverified
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception	Feb 17, 2025	MMLUNatural Questions	—Unverified
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance	Feb 17, 2025	BenchmarkingDependency Parsing	—Unverified
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning	Feb 16, 2025	MedQAMMLU	—Unverified
Leveraging Uncertainty Estimation for Efficient LLM Routing	Feb 16, 2025	GSM8KMMLU	—Unverified
ORI: O Routing Intelligence	Feb 14, 2025	ARCMMLU	—Unverified
Cost-Saving LLM Cascades with Early Abstention	Feb 13, 2025	GSM8KMMLU	—Unverified
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models	Feb 12, 2025	Mathematical ReasoningMMLU	—Unverified
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon	Feb 11, 2025	MMLU	CodeCode Available
OpenGrok: Enhancing SNS Data Processing with Distilled Knowledge and Mask-like Mechanisms	Feb 11, 2025	Knowledge DistillationMMLU	CodeCode Available
Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark	Feb 10, 2025	MMLUMorphological Analysis	—Unverified
RoToR: Towards More Reliable Responses for Order-Invariant Inputs	Feb 10, 2025	Graph Question AnsweringMMLU	CodeCode Available

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified