Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 1107 papers

Title	Date	Tasks	Status
Evaluating Nuanced Bias in Large Language Model Free Response Answers	Jul 11, 2024	BenchmarkingLanguage Modeling	—Unverified
GANDALF: a General Character Name Description Dataset for Long Fiction	Nov 1, 2021	Multiple-choiceQuestion Answering	—Unverified
Evaluating Question Answering Evaluation	Nov 1, 2019	Answer GenerationMultiple-choice	—Unverified
Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs	Feb 12, 2025	Multiple-choiceSurvey	—Unverified
Evalita-LLM: Benchmarking Large Language Models on Italian	Feb 4, 2025	BenchmarkingMultiple-choice	—Unverified
BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles	Sep 23, 2021	Multiple-choiceQuestion Answering	—Unverified
Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions	Nov 5, 2023	Logical ReasoningMultiple-choice	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
Establishing Task Scaling Laws via Compute-Efficient Model Ladders	Dec 5, 2024	Language ModelingLanguage Modelling	—Unverified
Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms	Jun 5, 2025	Multiple-choice	—Unverified
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
Evaluation of Automatically Generated Pronoun Reference Questions	Sep 1, 2017	Multiple-choiceReading Comprehension	—Unverified
Answer Uncertainty and Unanswerability in Multiple-Choice Machine Reading Comprehension	May 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution	Jun 22, 2023	Multiple-choice	—Unverified
Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil	Aug 9, 2024	MathMultiple-choice	—Unverified
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta	Dec 31, 2024	Multiple-choiceQuestion Answering	—Unverified
Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation	Jan 1, 2025	Language ModelingLanguage Modelling	—Unverified
ExplanationLP: Abductive Reasoning for Explainable Science Question Answering	Oct 25, 2020	Answer SelectionARC	—Unverified
Can ChatGPT pass the Vietnamese National High School Graduation Examination?	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified
Answering questions by learning to rank -- Learning to rank by answering questions	Sep 2, 2019	ARCLearning-To-Rank	—Unverified
Explore then Determine: A GNN-LLM Synergy Framework for Reasoning over Knowledge Graph	Jun 3, 2024	Knowledge GraphsMultiple-choice	—Unverified
Can Crowdsourcing be used for Effective Annotation of Arabic?	May 1, 2014	Entity ResolutionMultiple-choice	—Unverified
Generalised Winograd Schema and its Contextuality	Aug 31, 2023	coreference-resolutionCoreference Resolution	—Unverified
Enhancing Multiple-Choice Question Answering with Causal Knowledge	Jun 1, 2021	Multiple-choiceQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 16 of 45Next →

No leaderboard results yet.