MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 340 papers

Title	Date	Tasks	Status
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering	Dec 13, 2024	Few-Shot LearningKnowledge Distillation	—Unverified
Llama 3 Meets MoE: Efficient Upcycling	Dec 13, 2024	Mixture-of-ExpertsMMLU	—Unverified
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation	Dec 4, 2024	MMLU	—Unverified
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset	Dec 3, 2024	ARCMMLU	—Unverified
Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models	Dec 2, 2024	MMLUMultiple-choice	CodeCode Available
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents	Dec 1, 2024	Mathematical ReasoningMMLU	—Unverified
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified
Learning from "Silly" Questions Improves Large Language Models, But Only Slightly	Nov 21, 2024	EconometricsGlobal Facts	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models	Nov 14, 2024	Domain GeneralizationIn-Context Learning	—Unverified
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified
Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents	Nov 5, 2024	MMLU	—Unverified
TODO: Enhancing LLM Alignment with Ternary Preferences	Nov 2, 2024	ARCMMLU	CodeCode Available
Project MPG: towards a generalized performance benchmark for LLM capabilities	Oct 28, 2024	BenchmarkingChatbot	—Unverified
Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment	Oct 23, 2024	GSM8KHumanEval	—Unverified
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning	Oct 18, 2024	MathMathematical Reasoning	—Unverified
BenTo: Benchmark Task Reduction with In-Context Transferability	Oct 17, 2024	In-Context LearningMMLU	CodeCode Available
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks	Oct 15, 2024	HumanEvalLanguage Modelling	—Unverified
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning	Oct 14, 2024	In-Context LearningMMLU	CodeCode Available
Towards Multilingual LLM Evaluation for European Languages	Oct 11, 2024	ARCGSM8K	—Unverified
Upcycling Large Language Models into Mixture of Experts	Oct 10, 2024	Mixture-of-ExpertsMMLU	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified