SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 69 papers

Title	Date	Tasks	Status	Hype
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified	0
CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain	Feb 11, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1
LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction	Dec 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets	Dec 15, 2023	In-Context LearningLanguage Model Evaluation	CodeCode Available	1
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation	Nov 29, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code	Nov 14, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	4
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation	Oct 23, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation	Oct 21, 2023	BenchmarkingLanguage Model Evaluation	—Unverified	0
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing	Oct 19, 2023	DecoderLanguage Model Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.