SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–69 of 69 papers

Title	Date	Tasks	Status	Hype
Advancing Chinese biomedical text mining with community challenges	Mar 7, 2024	AttributeAttribute Extraction	—Unverified	0
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified	0
CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain	Feb 11, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation	Nov 29, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation	Oct 23, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation	Oct 21, 2023	BenchmarkingLanguage Model Evaluation	—Unverified	0
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing	Oct 19, 2023	DecoderLanguage Model Evaluation	—Unverified	0
Pseudointelligence: A Unifying Framework for Language Model Evaluation	Oct 18, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
PrOnto: Language Model Evaluations for 859 Languages	May 22, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs	Apr 22, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Controlling for Stereotypes in Multimodal Language Model Evaluation	Feb 3, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
A Dog Is Passing Over The Jet? A Text-Generation Dataset for Korean Commonsense Reasoning and Evaluation	Jul 1, 2022	Language Model EvaluationLanguage Modeling	—Unverified	0
BPoMP: The Benchmark of Poetic Minimal Pairs – Limericks, Rhyme, and Narrative Coherence	Sep 1, 2021	Language Model EvaluationLanguage Modelling	—Unverified	0
Language Model Evaluation in Open-ended Text Generation	Aug 8, 2021	AttributeDiversity	—Unverified	0
Language Model Evaluation Beyond Perplexity	May 31, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	0
CLiMP: A Benchmark for Chinese Language Model Evaluation	Jan 26, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
Improving Explainable Recommendations with Synthetic Reviews	Jul 18, 2018	Language Model EvaluationLanguage Modeling	—Unverified	0
Contrastive Entropy: A new evaluation metric for unnormalized language models	Jan 3, 2016	Language Model EvaluationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.