Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1107 papers

Title	Date	Tasks	Status
AraSTEM: A Native Arabic Multiple Choice Question Benchmark for Evaluating LLMs Knowledge In STEM Subjects	Dec 31, 2024	BenchmarkingMultiple-choice	—Unverified
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified
GeoSQA: A Benchmark for Scenario-based Question Answering in the Geography Domain at High School Level	Aug 20, 2019	General KnowledgeMultiple-choice	—Unverified
FAMULUS: Interactive Annotation and Feedback Generation for Teaching Diagnostic Reasoning	Aug 29, 2019	DiagnosticMultiple-choice	—Unverified
Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models	Jun 18, 2024	Multiple-choice	—Unverified
Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?	Mar 16, 2023	Multiple-choice	—Unverified
Exposing the Limits of Video-Text Models through Contrast Sets	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees	Nov 4, 2024	Multiple-choiceQuestion Answering	—Unverified
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models	Apr 20, 2025	DescriptiveEthics	—Unverified
Can Crowdsourcing be used for Effective Annotation of Arabic?	May 1, 2014	Entity ResolutionMultiple-choice	—Unverified
Can ChatGPT pass the Vietnamese National High School Graduation Examination?	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified
Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments	Nov 28, 2024	Multiple-choice	—Unverified
Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension	Jan 16, 2020	Machine Reading ComprehensionMultiple-choice	—Unverified
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
A Joint-Reasoning based Disease Q&A System	Jan 6, 2024	Knowledge GraphsMisinformation	—Unverified
Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution	Jun 22, 2023	Multiple-choice	—Unverified
Answer Uncertainty and Unanswerability in Multiple-Choice Machine Reading Comprehension	May 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
Answer Uncertainty and Unanswerability in Multiple-Choice Machine Reading Comprehension	Jan 16, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
Bridging the Language Gap: Knowledge Injected Multilingual Question Answering	Apr 6, 2023	Cross-Lingual TransferExtractive Question-Answering	—Unverified
Bridging Information-Seeking Human Gaze and Machine Reading Comprehension	Sep 30, 2020	Machine Reading ComprehensionMultiple-choice	—Unverified
Adapting Vision-Language Models for Evaluating World Models	Jun 22, 2025	Action RecognitionMultimodal Reasoning	—Unverified
How Additional Knowledge can Improve Natural Language Commonsense Question Answering?	Sep 19, 2019	ArticlesLanguage Modeling	—Unverified
Fine-tuning BERT with Focus Words for Explanation Regeneration	Dec 1, 2020	Explanation GenerationMultiple-choice	—Unverified
From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT	May 17, 2024	BenchmarkingMultiple-choice	—Unverified
Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs	Feb 12, 2025	Multiple-choiceSurvey	—Unverified

Show:10 25 50

← PrevPage 14 of 45Next →

No leaderboard results yet.