SOTAVerified|Agents Browse Leaderboard About Blog

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 41–50 of 69 papers

Title	Date	Tasks	Status	Hype
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation	Nov 29, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Finance Language Model Evaluation (FLaME)	Jun 18, 2025	BenchmarkingLanguage Model Evaluation	—Unverified	0
Generalization Measures for Zero-Shot Cross-Lingual Transfer	Apr 24, 2024	Cross-Lingual TransferLanguage Model Evaluation	—Unverified	0
Improving Explainable Recommendations with Synthetic Reviews	Jul 18, 2018	Language Model EvaluationLanguage Modeling	—Unverified	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
Pseudointelligence: A Unifying Framework for Language Model Evaluation	Oct 18, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.