MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 340 papers

Title	Date	Tasks	Status
Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs	Dec 31, 2024	Conformal PredictionDecision Making	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
Multi-lingual Functional Evaluation for Large Language Models	Jun 25, 2025	BelebeleInstruction Following	—Unverified
Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models	Dec 15, 2024	MMLUQuantization	—Unverified
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset	Dec 3, 2024	ARCMMLU	—Unverified
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design	Jul 23, 2024	Formal LogicLanguage Modelling	—Unverified
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks	Feb 18, 2025	MathMemorization	—Unverified
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning	Mar 30, 2024	Language ModelingLanguage Modelling	—Unverified
Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models	Feb 20, 2025	HellaSwagMemorization	—Unverified
Octopus v4: Graph of language models	Apr 30, 2024	MMLU	—Unverified
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning	Feb 16, 2025	MedQAMMLU	—Unverified
On the Reasoning Capacity of AI Models and How to Quantify It	Jan 23, 2025	MemorizationMMLU	—Unverified
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models	Feb 29, 2024	Medical Question AnsweringMedQA	—Unverified
Optimised Grouped-Query Attention Mechanism for Transformers	Jun 21, 2024	MMLU	—Unverified
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified
ORI: O Routing Intelligence	Feb 14, 2025	ARCMMLU	—Unverified
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone	Apr 22, 2024	Language ModelingLanguage Modelling	—Unverified
Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback	Jun 21, 2024	Information RetrievalLearning-To-Rank	—Unverified
PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation	Feb 27, 2025	MMLU	—Unverified
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified
BOTS-LM: Training Large Language Models for Setswana	Aug 5, 2024	Computational EfficiencyLanguage Modeling	—Unverified
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs	Sep 30, 2024	ARCDiversity	—Unverified
Project MPG: towards a generalized performance benchmark for LLM capabilities	Oct 28, 2024	BenchmarkingChatbot	—Unverified
Pruning Large Language Models via Accuracy Predictor	Sep 18, 2023	MMLUModel Compression	—Unverified
ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology	Nov 16, 2023	MMLUMultiple-choice	—Unverified
Quantifying Variance in Evaluation Benchmarks	Jun 14, 2024	MMLU	—Unverified
ALLaM: Large Language Models for Arabic and English	Jul 22, 2024	DecoderLanguage Acquisition	—Unverified
AgentInstruct: Toward Generative Teaching with Agentic Flows	Jul 3, 2024	GSM8KMMLU	—Unverified
Reactor Mk.1 performances: MMLU, HumanEval and BBH test results	Jun 15, 2024	BenchmarkingHumanEval	—Unverified
Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models	Nov 14, 2024	Domain GeneralizationIn-Context Learning	—Unverified
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning	Aug 16, 2024	counterfactualMMLU	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths	Oct 7, 2024	AttributeGSM8K	—Unverified
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified
Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training	Jul 7, 2025	General KnowledgeMMLU	—Unverified
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models	Apr 18, 2024	GSM8KMMLU	—Unverified
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs	Sep 3, 2024	MMLU	CodeCode Available
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings	May 19, 2025	HumanEvalMath	CodeCode Available
ChatBench: From Static Benchmarks to Human-AI Evaluation	Mar 22, 2025	MathMMLU	CodeCode Available
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available
ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling	Feb 21, 2024	MMLURetrieval	CodeCode Available
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective	Feb 20, 2025	GSM8KMath	CodeCode Available
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards	Feb 1, 2024	Answer SelectionLanguage Modeling	CodeCode Available
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning	Feb 27, 2024	8kLanguage Modeling	CodeCode Available
DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance	Jan 29, 2025	DiversityMMLU	CodeCode Available
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali	May 25, 2025	General KnowledgeMMLU	CodeCode Available
Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models	May 16, 2025	DiversityMMLU	CodeCode Available
Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models	Dec 2, 2024	MMLUMultiple-choice	CodeCode Available
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models	Sep 27, 2023	HumanEvalLanguage Modeling	CodeCode Available

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified