MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 340 papers

Title	Date	Tasks	Status
Large Language Model Compression with Neural Architecture Search	Oct 9, 2024	Instruction FollowingLanguage Modeling	—Unverified
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths	Oct 7, 2024	AttributeGSM8K	—Unverified
Continuous Approximations for Improving Quantization Aware Training of LLMs	Oct 6, 2024	MMLUModel Compression	—Unverified
CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions	Oct 4, 2024	Instruction FollowingMMLU	CodeCode Available
LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity	Oct 4, 2024	DiversityEnsemble Pruning	CodeCode Available
BrainTransformers: SNN-LLM	Oct 3, 2024	ARCGSM8K	—Unverified
Efficiently Deploying LLMs with Controlled Risk	Oct 3, 2024	MMLUTruthfulQA	—Unverified
DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining	Sep 30, 2024	Continual PretrainingDomain Adaptation	—Unverified
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs	Sep 30, 2024	ARCDiversity	—Unverified
Instance-adaptive Zero-shot Chain-of-Thought Prompting	Sep 30, 2024	GSM8KMath	—Unverified
SSR: Alignment-Aware Modality Connector for Speech Language Models	Sep 30, 2024	Language ModelingLanguage Modelling	—Unverified
Uncovering Latent Chain of Thought Vectors in Language Models	Sep 21, 2024	ARCGSM8K	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified
GRIN: GRadient-INformed MoE	Sep 18, 2024	HellaSwagHumanEval	—Unverified
Eir: Thai Medical Large Language Models	Sep 13, 2024	Language ModellingLarge Language Model	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models	Sep 7, 2024	MMLUTruthfulQA	—Unverified
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs	Sep 3, 2024	MMLU	CodeCode Available
Performance Law of Large Language Models	Aug 19, 2024	MMLU	CodeCode Available
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models	Aug 16, 2024	GSM8KMMLU	—Unverified
Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning	Aug 16, 2024	counterfactualMMLU	—Unverified
BOTS-LM: Training Large Language Models for Setswana	Aug 5, 2024	Computational EfficiencyLanguage Modeling	—Unverified
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design	Jul 23, 2024	Formal LogicLanguage Modelling	—Unverified
ALLaM: Large Language Models for Arabic and English	Jul 22, 2024	DecoderLanguage Acquisition	—Unverified
metabench -- A Sparse Benchmark to Measure General Ability in Large Language Models	Jul 4, 2024	ARCGSM8K	CodeCode Available
AgentInstruct: Toward Generative Teaching with Agentic Flows	Jul 3, 2024	GSM8KMMLU	—Unverified
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning	Jul 2, 2024	Active LearningLanguage Modelling	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization	Jun 27, 2024	DiversityEmpathetic Response Generation	CodeCode Available
Training-Free Exponential Context Extension via Cascading KV Cache	Jun 24, 2024	Book summarizationComputational Efficiency	CodeCode Available
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling	Jun 21, 2024	ClusteringMMLU	—Unverified
DEM: Distribution Edited Model for Training with Mixed Data Distributions	Jun 21, 2024	DiversityInstruction Following	—Unverified
Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback	Jun 21, 2024	Information RetrievalLearning-To-Rank	—Unverified
Optimised Grouped-Query Attention Mechanism for Transformers	Jun 21, 2024	MMLU	—Unverified
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified
Input Conditioned Graph Generation for Language Agents	Jun 17, 2024	Graph GenerationMMLU	CodeCode Available
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance	Jun 17, 2024	counterfactualMMLU	—Unverified
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting	Jun 17, 2024	EthicsMMLU	—Unverified
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation	Jun 16, 2024	Continual LearningGSM8K	CodeCode Available
Reactor Mk.1 performances: MMLU, HumanEval and BBH test results	Jun 15, 2024	BenchmarkingHumanEval	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Quantifying Variance in Evaluation Benchmarks	Jun 14, 2024	MMLU	—Unverified
GEB-1.3B: Open Lightweight Large Language Model	Jun 14, 2024	CPULanguage Modeling	—Unverified
An Empirical Study of Mamba-based Language Models	Jun 12, 2024	16kIn-Context Learning	—Unverified
Does your data spark joy? Performance gains from domain upsampling at the end of training	Jun 5, 2024	GSM8KHumanEval	—Unverified
Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function	Jun 3, 2024	DiversityMMLU	CodeCode Available
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures	Jun 3, 2024	ChatbotMMLU	—Unverified
Spanish and LLM Benchmarks: is MMLU Lost in Translation?	May 28, 2024	MMLUTranslation	—Unverified
GECKO: Generative Language Model for English, Code and Korean	May 24, 2024	kmmluLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified