SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–69 of 69 papers

Title	Date	Tasks	Status	Hype
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation	Jun 6, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified	0
Lessons from the Trenches on Reproducible Evaluation of Language Models	May 23, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Large Language Model Evaluation via Matrix Nuclear-Norm	Oct 14, 2024	Computational EfficiencyData Compression	CodeCode Available	0
PrOnto: Language Model Evaluations for 859 Languages	May 22, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available	0
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	0
Enterprise Benchmarks for Large Language Model Evaluation	Oct 11, 2024	BenchmarkingLanguage Model Evaluation	CodeCode Available	0
Mitigating the Bias of Large Language Model Evaluation	Sep 25, 2024	Instruction FollowingLanguage Model Evaluation	CodeCode Available	0
Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain	Jan 10, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging	May 20, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available	0
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	0
FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation	May 30, 2025	DiagnosticLanguage Model Evaluation	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.