SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–69 of 69 papers

Title	Date	Tasks	Status	Hype	Score
A Dog Is Passing Over The Jet? A Text-Generation Dataset for Korean Commonsense Reasoning and Evaluation	Jul 1, 2022	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Language Model Evaluation Beyond Perplexity	May 31, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Language Model Evaluation in Open-ended Text Generation	Aug 8, 2021	AttributeDiversity	—Unverified	0	0
Lessons from the Trenches on Reproducible Evaluation of Language Models	May 23, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation	Oct 21, 2023	BenchmarkingLanguage Model Evaluation	—Unverified	0	0
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 7 of 7Next →

No leaderboard results yet.