SOTAVerified|Agents Browse Leaderboard About

MMLU

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 281–290 of 340 papers

Title	Date	Tasks	Status	Hype
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling	Jun 21, 2024	ClusteringMMLU	—Unverified	0
DEM: Distribution Edited Model for Training with Mixed Data Distributions	Jun 21, 2024	DiversityInstruction Following	—Unverified	0
Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback	Jun 21, 2024	Information RetrievalLearning-To-Rank	—Unverified	0
Optimised Grouped-Query Attention Mechanism for Transformers	Jun 21, 2024	MMLU	—Unverified	0
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	0
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified	0
Input Conditioned Graph Generation for Language Agents	Jun 17, 2024	Graph GenerationMMLU	CodeCode Available	0
The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance	Jun 17, 2024	counterfactualMMLU	—Unverified	0
Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting	Jun 17, 2024	EthicsMMLU	—Unverified	0
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation	Jun 16, 2024	Continual LearningGSM8K	CodeCode Available	0

Show:10 25 50

← PrevPage 29 of 34Next →

All datasets SIOP 2020/2021 MMLU-Pro VCTK

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	go ahead, make my data	Final_score	61.72	—	Unverified
2	#GreedyCow	Final_score	61.63	—	Unverified
3	Don't Ask Us y	Final_score	61.4	—	Unverified
4	Data_and_Confused	Final_score	60.96	—	Unverified
5	Waffles	Final_score	60.91	—	Unverified
6	raaka	Final_score	60.91	—	Unverified
7	Team Procrustination	Final_score	60.64	—	Unverified
8	Axiom Consulting Partners	Final_score	60.63	—	Unverified
9	Lets_Be_Fair	Final_score	60.23	—	Unverified
10	gooners	Final_score	60.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orange-mini	0-shot MRR	99.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HybridBeam+	SI-SDRi	13.3	—	Unverified