SOTAVerified|Agents Browse Leaderboard About

Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1107 of 1107 papers

Title	Date	Tasks	Status	Hype	Score
KoBALT: Korean Benchmark For Advanced Linguistic Tasks	May 22, 2025	Multiple-choice	—Unverified	0	0
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified	0	0
KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge	Feb 21, 2024	4kMultiple-choice	—Unverified	0	0
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified	0	0
LAB-Bench: Measuring Capabilities of Language Models for Biology Research	Jul 14, 2024	Language ModellingMultiple-choice	—Unverified	0	0
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	Oct 18, 2024	BenchmarkingFairness	—Unverified	0	0
Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model	Oct 1, 2024	AllLanguage Modeling	—Unverified	0	0

Show:10 25 50

← PrevPage 23 of 23Next →

No leaderboard results yet.