Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 69 papers

Title	Date	Tasks	Status	Score
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation	Jun 20, 2024	GSM8KLanguage Model Evaluation	CodeCode Available	5
PrOnto: Language Model Evaluations for 859 Languages	May 22, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	5
FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation	May 30, 2025	DiagnosticLanguage Model Evaluation	CodeCode Available	5
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging	May 20, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	5
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform	Mar 13, 2024	Language Model EvaluationLanguage Modelling	CodeCode Available	5
Mind the Gap: Assessing Temporal Generalization in Neural Language Models	Feb 3, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
Pseudointelligence: A Unifying Framework for Language Model Evaluation	Oct 18, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation	Jun 6, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
ViDAS: Vision-based Danger Assessment and Scoring	Oct 1, 2024	Fixed Few Shot PromptingFixed Few Shot Prompting Danger Assessment	—Unverified	0
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified	0
Advancing Chinese biomedical text mining with community challenges	Mar 7, 2024	AttributeAttribute Extraction	—Unverified	0
BehaviorBox: Automated Discovery of Fine-Grained Performance Differences Between Language Models	Jun 2, 2025	Language Model Evaluation	—Unverified	0
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified	0
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified	0
BPoMP: The Benchmark of Poetic Minimal Pairs – Limericks, Rhyme, and Narrative Coherence	Sep 1, 2021	Language Model EvaluationLanguage Modelling	—Unverified	0
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation	Oct 23, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
CLiMP: A Benchmark for Chinese Language Model Evaluation	Jan 26, 2021	Language Model EvaluationLanguage Modeling	—Unverified	0
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation	Apr 29, 2025	Code GenerationLanguage Model Evaluation	—Unverified	0
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges	Apr 30, 2025	Bayesian InferenceLanguage Model Evaluation	—Unverified	0
Contrastive Entropy: A new evaluation metric for unnormalized language models	Jan 3, 2016	Language Model EvaluationLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.