Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 69 papers

Title	Date	Tasks	Status	Hype
Enterprise Large Language Model Evaluation Benchmark	Jun 25, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Finance Language Model Evaluation (FLaME)	Jun 18, 2025	BenchmarkingLanguage Model Evaluation	—Unverified	0
BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models	Jun 2, 2025	Language Model Evaluation	—Unverified	0
FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation	May 30, 2025	DiagnosticLanguage Model Evaluation	CodeCode Available	0
Role-Playing Evaluation for Large Language Models	May 19, 2025	Language Model Evaluation	CodeCode Available	1
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges	Apr 30, 2025	Bayesian InferenceLanguage Model Evaluation	—Unverified	0
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation	Apr 29, 2025	Code GenerationLanguage Model Evaluation	—Unverified	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis	Feb 17, 2025	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available	1
Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain	Jan 10, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training	Dec 11, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	1
DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA	Dec 6, 2024	counterfactualLanguage Model Evaluation	CodeCode Available	1
C^2LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation	Dec 6, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	2
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified	0
Large Language Model Evaluation via Matrix Nuclear-Norm	Oct 14, 2024	Computational EfficiencyData Compression	CodeCode Available	0
Enterprise Benchmarks for Large Language Model Evaluation	Oct 11, 2024	BenchmarkingLanguage Model Evaluation	CodeCode Available	0
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified	0
Mitigating the Bias of Large Language Model Evaluation	Sep 25, 2024	Instruction FollowingLanguage Model Evaluation	CodeCode Available	0
Salmon: A Suite for Acoustic Language Model Evaluation	Sep 11, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified	0
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	0
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation	Jun 6, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation	May 24, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
iREPO: implicit Reward Pairwise Difference based Empirical Preference Optimization	May 24, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Lessons from the Trenches on Reproducible Evaluation of Language Models	May 23, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging	May 20, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Generalization Measures for Zero-Shot Cross-Lingual Transfer	Apr 24, 2024	Cross-Lingual TransferLanguage Model Evaluation	—Unverified	0
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available	0
Evalverse: Unified and Accessible Library for Large Language Model Evaluation	Apr 1, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	3
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Advancing Chinese biomedical text mining with community challenges	Mar 7, 2024	AttributeAttribute Extraction	—Unverified	0
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic	Feb 20, 2024	ArabicMMLULanguage Model Evaluation	CodeCode Available	1
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified	0
CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain	Feb 11, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1
LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction	Dec 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets	Dec 15, 2023	In-Context LearningLanguage Model Evaluation	CodeCode Available	1
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation	Nov 29, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code	Nov 14, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	4
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation	Oct 23, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation	Oct 21, 2023	BenchmarkingLanguage Model Evaluation	—Unverified	0
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing	Oct 19, 2023	DecoderLanguage Model Evaluation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.