Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 69 papers

Title	Date	Tasks	Status
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges	Apr 30, 2025	Bayesian InferenceLanguage Model Evaluation	—Unverified
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation	Apr 29, 2025	Code GenerationLanguage Model Evaluation	—Unverified
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation	Mar 13, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain	Jan 10, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified
Large Language Model Evaluation via Matrix Nuclear-Norm	Oct 14, 2024	Computational EfficiencyData Compression	CodeCode Available
Enterprise Benchmarks for Large Language Model Evaluation	Oct 11, 2024	BenchmarkingLanguage Model Evaluation	CodeCode Available
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified
Mitigating the Bias of Large Language Model Evaluation	Sep 25, 2024	Instruction FollowingLanguage Model Evaluation	CodeCode Available
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified
On Speeding Up Language Model Evaluation	Jul 8, 2024	Language Model EvaluationLanguage Modeling	—Unverified
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation	Jun 6, 2024	Language Model EvaluationLanguage Modeling	—Unverified
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation	May 24, 2024	Language Model EvaluationLanguage Modeling	—Unverified
iREPO: implicit Reward Pairwise Difference based Empirical Preference Optimization	May 24, 2024	Language Model EvaluationLanguage Modeling	—Unverified
Lessons from the Trenches on Reproducible Evaluation of Language Models	May 23, 2024	Language Model EvaluationLanguage Modeling	—Unverified
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging	May 20, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available
Generalization Measures for Zero-Shot Cross-Lingual Transfer	Apr 24, 2024	Cross-Lingual TransferLanguage Model Evaluation	—Unverified
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.