MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 340 papers

Title	Date	Tasks	Status
FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy	Feb 8, 2025	MMLU	—Unverified
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified
QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning	Feb 3, 2025	Data ValuationLanguage Modeling	CodeCode Available
Evaluation of Large Language Models via Coupled Token Generation	Feb 3, 2025	ChatbotLarge Language Model	CodeCode Available
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?	Feb 2, 2025	MathMMLU	—Unverified
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient	Feb 2, 2025	MMLU	CodeCode Available
DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance	Jan 29, 2025	DiversityMMLU	CodeCode Available
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding	Jan 27, 2025	BenchmarkingDiversity	—Unverified
HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI	Jan 26, 2025	MMLUMultiple-choice	—Unverified
Humanity's Last Exam	Jan 24, 2025	Humanity's Last ExamLanguage Modeling	—Unverified
On the Reasoning Capacity of AI Models and How to Quantify It	Jan 23, 2025	MemorizationMMLU	—Unverified
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs	Jan 21, 2025	GSM8KIn-Context Learning	—Unverified
Explain-Query-Test: Self-Evaluating LLMs Via Explanation and Comprehension Discrepancy	Jan 20, 2025	MMLU	CodeCode Available
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
Inference-Time-Compute: More Faithful? A Research Note	Jan 14, 2025	AttributeMMLU	—Unverified
CHAIR -- Classifier of Hallucination as Improver	Jan 5, 2025	HallucinationMMLU	CodeCode Available
Unraveling Indirect In-Context Learning Using Influence Functions	Jan 1, 2025	In-Context LearningInformativeness	—Unverified
Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs	Dec 31, 2024	Conformal PredictionDecision Making	—Unverified
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study	Dec 19, 2024	AstronomyDomain Adaptation	CodeCode Available
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design	Dec 19, 2024	MMLUQuantization	—Unverified
ChainRank-DPO: Chain Rank Direct Preference Optimization for LLM Rankers	Dec 18, 2024	MMLUReranking	—Unverified
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs	Dec 17, 2024	MMLU	—Unverified
Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models	Dec 15, 2024	MMLUQuantization	—Unverified
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering	Dec 13, 2024	Few-Shot LearningKnowledge Distillation	—Unverified
Llama 3 Meets MoE: Efficient Upcycling	Dec 13, 2024	Mixture-of-ExpertsMMLU	—Unverified
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation	Dec 4, 2024	MMLU	—Unverified
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset	Dec 3, 2024	ARCMMLU	—Unverified
Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models	Dec 2, 2024	MMLUMultiple-choice	CodeCode Available
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents	Dec 1, 2024	Mathematical ReasoningMMLU	—Unverified
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models	Nov 29, 2024	MMLU	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified
Learning from "Silly" Questions Improves Large Language Models, But Only Slightly	Nov 21, 2024	EconometricsGlobal Facts	—Unverified
GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs	Nov 21, 2024	MMLUText Generation	—Unverified
Real-time Adapting Routing (RAR): Improving Efficiency Through Continuous Learning in Software Powered by Layered Foundation Models	Nov 14, 2024	Domain GeneralizationIn-Context Learning	—Unverified
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified
Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents	Nov 5, 2024	MMLU	—Unverified
TODO: Enhancing LLM Alignment with Ternary Preferences	Nov 2, 2024	ARCMMLU	CodeCode Available
Project MPG: towards a generalized performance benchmark for LLM capabilities	Oct 28, 2024	BenchmarkingChatbot	—Unverified
Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment	Oct 23, 2024	GSM8KHumanEval	—Unverified
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning	Oct 18, 2024	MathMathematical Reasoning	—Unverified
BenTo: Benchmark Task Reduction with In-Context Transferability	Oct 17, 2024	In-Context LearningMMLU	CodeCode Available
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks	Oct 15, 2024	HumanEvalLanguage Modelling	—Unverified
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning	Oct 14, 2024	In-Context LearningMMLU	CodeCode Available
Towards Multilingual LLM Evaluation for European Languages	Oct 11, 2024	ARCGSM8K	—Unverified
Upcycling Large Language Models into Mixture of Experts	Oct 10, 2024	Mixture-of-ExpertsMMLU	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified