SOTAVerified|Agents Browse Leaderboard About

Language Model Evaluation

The task of using LLMs as evaluators of large language and vision language models.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 69 papers

Title	Date	Tasks	Status	Hype
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation	Feb 24, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis	Feb 17, 2025	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available	1
Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain	Jan 10, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	0
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation	Dec 31, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
LMUnit: Fine-grained Evaluation with Natural Language Unit Tests	Dec 17, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training	Dec 11, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	1
DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA	Dec 6, 2024	counterfactualLanguage Model Evaluation	CodeCode Available	1
C^2LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation	Dec 6, 2024	Language Model EvaluationLanguage Modeling	CodeCode Available	2
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified	0

Show:10 25 50

← PrevPage 2 of 7Next →

No leaderboard results yet.