Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–725 of 1107 papers

Title	Date	Tasks	Status
Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora	Feb 19, 2025	ArticlesMultiple-choice	—Unverified
An Algorithm for Generating Gap-Fill Multiple Choice Questions of an Expert System	Sep 17, 2021	Multiple-choicesoftware testing	—Unverified
It is Too Many Options: Pitfalls of Multiple-Choice Questions in Generative AI and Medical Education	Mar 13, 2025	Multiple-choice	—Unverified
Winning Amazon KDD Cup'24	Aug 5, 2024	Data AugmentationMultiple-choice	—Unverified
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified
Knowledge-Driven Distractor Generation for Cloze-style Multiple Choice Questions	Apr 21, 2020	Distractor GenerationLearning-To-Rank	—Unverified
Knowledge Questions from Knowledge Graphs	Oct 31, 2016	Knowledge GraphsMultiple-choice	—Unverified
Knowledge Retrieval Based on Generative AI	Jan 8, 2025	Large Language ModelMultiple-choice	—Unverified
KoBALT: Korean Benchmark For Advanced Linguistic Tasks	May 22, 2025	Multiple-choice	—Unverified
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified
KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge	Feb 21, 2024	4kMultiple-choice	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
LAB-Bench: Measuring Capabilities of Language Models for Biology Research	Jul 14, 2024	Language ModellingMultiple-choice	—Unverified
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	Oct 18, 2024	BenchmarkingFairness	—Unverified
Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model	Oct 1, 2024	AllLanguage Modeling	—Unverified
Language models are susceptible to incorrect patient self-diagnosis in medical applications	Sep 17, 2023	DiagnosticMultiple-choice	—Unverified
Uncovering Cultural Representation Disparities in Vision-Language Models	May 20, 2025	Multiple-choice	—Unverified
Language Models (Mostly) Know What They Know	Jul 11, 2022	Multiple-choice	—Unverified
Uncovering Temporal Context for Video Question and Answering	Nov 15, 2015	DecoderMultiple-choice	—Unverified
LAR-ECHR: A New Legal Argument Reasoning Task and Dataset for Cases of the European Court of Human Rights	Oct 17, 2024	Legal ReasoningMultiple-choice	—Unverified
Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations	Aug 22, 2024	Multiple-choice	—Unverified
Large Language Models Could Be Rote Learners	Apr 11, 2025	MemorizationMMLU	—Unverified
Understanding Dataset Design Choices for Multi-hop Reasoning	Apr 27, 2019	Multi-hop Question AnsweringMultiple-choice	—Unverified
Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions about Code	Mar 9, 2023	Multiple-choice	—Unverified
Large Language Models Often Know When They Are Being Evaluated	May 28, 2025	MMLUMultiple-choice	—Unverified

Show:10 25 50

← PrevPage 29 of 45Next →

No leaderboard results yet.