SOTAVerified|Agents Browse Leaderboard About Blog

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 69 papers

Title	Date	Tasks	Status	Hype
Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain	Jan 10, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified	0
Large Language Model Evaluation via Matrix Nuclear-Norm	Oct 14, 2024	Computational EfficiencyData Compression	CodeCode Available	0
Enterprise Benchmarks for Large Language Model Evaluation	Oct 11, 2024	BenchmarkingLanguage Model Evaluation	CodeCode Available	0
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified	0
Mitigating the Bias of Large Language Model Evaluation	Sep 25, 2024	Instruction FollowingLanguage Model Evaluation	CodeCode Available	0
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.