SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 231–240 of 340 papers

Title	Date	Tasks	Status	Hype
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified	0
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	0
LiveMind: Low-latency Large Language Models with Simultaneous Inference	Jun 20, 2024	Collaborative InferenceLanguage Modeling	CodeCode Available	1
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools	Jun 18, 2024	AllGSM8K	CodeCode Available	14
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting	Jun 17, 2024	EthicsMMLU	—Unverified	0
Input Conditioned Graph Generation for Language Agents	Jun 17, 2024	Graph GenerationMMLU	CodeCode Available	0
DataComp-LM: In search of the next generation of training sets for language models	Jun 17, 2024	Language ModellingMMLU	CodeCode Available	7
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance	Jun 17, 2024	counterfactualMMLU	—Unverified	0
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation	Jun 16, 2024	Continual LearningGSM8K	CodeCode Available	0
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified	0

Show:10 25 50

← PrevPage 24 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified