SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 69 papers

Title	Date	Tasks	Status	Hype	Score
Large Language Model Evaluation via Matrix Nuclear-Norm	Oct 14, 2024	Computational EfficiencyData Compression	CodeCode Available	0	5
Pseudointelligence: A Unifying Framework for Language Model Evaluation	Oct 18, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0	0
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation	Jun 6, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0	0
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified	0	0
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified	0	0
Advancing Chinese biomedical text mining with community challenges	Mar 7, 2024	AttributeAttribute Extraction	—Unverified	0	0

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.