Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 69 papers

Title	Date	Tasks	Status	Hype	Score
Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code	Nov 14, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	4	5
Evalverse: Unified and Accessible Library for Large Language Model Evaluation	Apr 1, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	3	5
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets	Jul 20, 2023	Instruction FollowingLanguage Model Evaluation	CodeCode Available	2	5
BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing	Jun 30, 2022	DiversityLanguage Model Evaluation	CodeCode Available	2	5
C^2LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation	Dec 6, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	2	5
AgentSims: An Open-Source Sandbox for Large Language Model Evaluation	Aug 8, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	2	5
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training	Dec 11, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
ZJUKLAB at SemEval-2021 Task 4: Negative Augmentation with Language Model for Reading Comprehension of Abstract Meaning	Feb 25, 2021	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research	Aug 25, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1	5
DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA	Dec 6, 2024	counterfactualLanguage Model Evaluation	CodeCode Available	1	5
M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis	Feb 17, 2025	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available	1	5
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1	5
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets	Dec 15, 2023	In-Context LearningLanguage Model Evaluation	CodeCode Available	1	5
LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction	Dec 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic	Feb 20, 2024	ArabicMMLULanguage Model Evaluation	CodeCode Available	1	5
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
Salmon: A Suite for Acoustic Language Model Evaluation	Sep 11, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
Role-Playing Evaluation for Large Language Models	May 19, 2025	Language Model Evaluation	CodeCode Available	1	5
Mitigating the Bias of Large Language Model Evaluation	Sep 25, 2024	Instruction FollowingLanguage Model Evaluation	CodeCode Available	0	5
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available	0	5
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging	May 20, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	0	5
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	0	5
FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation	May 30, 2025	DiagnosticLanguage Model Evaluation	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.