SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 69 papers

Title	Date	Tasks	Status	Hype	Score
BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models	Jun 2, 2025	Language Model Evaluation	—Unverified	0	0
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified	0	0
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified	0	0
BPoMP: The Benchmark of Poetic Minimal Pairs – Limericks, Rhyme, and Narrative Coherence	Sep 1, 2021	Language Model EvaluationLanguage Modelling	—Unverified	0	0
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation	Oct 23, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0	0
CLiMP: A Benchmark for Chinese Language Model Evaluation	Jan 26, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0	0
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation	Apr 29, 2025	Code GenerationLanguage Model Evaluation	—Unverified	0	0
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges	Apr 30, 2025	Bayesian InferenceLanguage Model Evaluation	—Unverified	0	0
Contrastive Entropy: A new evaluation metric for unnormalized language models	Jan 3, 2016	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Controlling for Stereotypes in Multimodal Language Model Evaluation	Feb 3, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0	0

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.