SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–69 of 69 papers

Title	Date	Tasks	Status	Hype
BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing	Jun 30, 2022	DiversityLanguage Model Evaluation	CodeCode Available	2
BPoMP: The Benchmark of Poetic Minimal Pairs – Limericks, Rhyme, and Narrative Coherence	Sep 1, 2021	Language Model EvaluationLanguage Modelling	—Unverified	0
Language Model Evaluation in Open-ended Text Generation	Aug 8, 2021	AttributeDiversity	—Unverified	0
Language Model Evaluation Beyond Perplexity	May 31, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning	Feb 25, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	0
CLiMP: A Benchmark for Chinese Language Model Evaluation	Jan 26, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
Improving Explainable Recommendations with Synthetic Reviews	Jul 18, 2018	Language Model EvaluationLanguage Modeling	—Unverified	0
Contrastive Entropy: A new evaluation metric for unnormalized language models	Jan 3, 2016	Language Model EvaluationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 7 of 7Next →

No leaderboard results yet.