Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1107 papers

Title	Date	Tasks	Status
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension	Nov 30, 2023	Multiple-choiceReading Comprehension	—Unverified
Bridging Information-Seeking Human Gaze and Machine Reading Comprehension	Sep 30, 2020	Machine Reading ComprehensionMultiple-choice	—Unverified
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions	May 26, 2025	Multiple-choice	—Unverified
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified
Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators	Nov 8, 2024	Decision MakingMultiple-choice	—Unverified
Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions	Sep 22, 2024	Band GapIn-Context Learning	—Unverified
AI-based Arabic Language and Speech Tutor	Oct 22, 2022	Multiple-choiceSelf-Learning	—Unverified
Generating Correct Answers for Progressive Matrices Intelligence Tests	Nov 1, 2020	Multiple-choice	—Unverified
Answering Science Exam Questions Using Query Reformulation with Background Knowledge	Nov 17, 2018	ARCInformation Retrieval	—Unverified
Evaluating multiple large language models in pediatric ophthalmology	Nov 7, 2023	Multiple-choice	—Unverified
ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition	Oct 8, 2024	Action RecognitionMultiple-choice	—Unverified
Generating Diagnostic Multiple Choice Comprehension Cloze Questions	Jun 1, 2012	DiagnosticMultiple-choice	—Unverified
Answering Science Exam Questions Using Query Rewriting with Background Knowledge	Sep 15, 2018	ARCInformation Retrieval	—Unverified
Evaluating LLMs on Document-Based QA: Exact Answer Selection and Numerical Extraction using Cogtale dataset	Nov 14, 2023	Answer SelectionInformation Retrieval	—Unverified
Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis	Jan 28, 2024	Knowledge GraphsMedical Diagnosis	—Unverified
BloomVQA: Assessing Hierarchical Multi-modal Comprehension	Dec 20, 2023	Data AugmentationMemorization	—Unverified
AI and Machine Learning for Next Generation Science Assessments	Apr 23, 2024	Multiple-choice	—Unverified
Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth	Jun 8, 2025	Multiple-choice	—Unverified
Answering Questions in Stages: Prompt Chaining for Contract QA	Oct 9, 2024	Multiple-choice	—Unverified
BLINK: Multimodal Large Language Models Can See but Not Perceive	Apr 18, 2024	Depth EstimationMultiple-choice	—Unverified
Evaluating Machine Reading Systems through Comprehension Tests	May 1, 2012	Answer SelectionMultiple-choice	—Unverified
ACQ: A Unified Framework for Automated Programmatic Creativity in Online Advertising	Dec 9, 2024	Multiple-choiceMulti-Task Learning	—Unverified
Generating Adequate Distractors for Multiple-Choice Questions	Oct 23, 2020	FormMultiple-choice	—Unverified
Evaluating Nuanced Bias in Large Language Model Free Response Answers	Jul 11, 2024	BenchmarkingLanguage Modeling	—Unverified
Answering questions by learning to rank - Learning to rank by answering questions	Nov 1, 2019	ARCLearning-To-Rank	—Unverified
Evaluating Question Answering Evaluation	Nov 1, 2019	Answer GenerationMultiple-choice	—Unverified
Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs	Feb 12, 2025	Multiple-choiceSurvey	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
Evalita-LLM: Benchmarking Large Language Models on Italian	Feb 4, 2025	BenchmarkingMultiple-choice	—Unverified
Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions	Nov 5, 2023	Logical ReasoningMultiple-choice	—Unverified
BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles	Sep 23, 2021	Multiple-choiceQuestion Answering	—Unverified
Generalised Winograd Schema and its Contextuality	Aug 31, 2023	coreference-resolutionCoreference Resolution	—Unverified
Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms	Jun 5, 2025	Multiple-choice	—Unverified
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
Evaluation of Automatically Generated Pronoun Reference Questions	Sep 1, 2017	Multiple-choiceReading Comprehension	—Unverified
Answer Uncertainty and Unanswerability in Multiple-Choice Machine Reading Comprehension	May 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution	Jun 22, 2023	Multiple-choice	—Unverified
Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil	Aug 9, 2024	MathMultiple-choice	—Unverified
Establishing Task Scaling Laws via Compute-Efficient Model Ladders	Dec 5, 2024	Language ModelingLanguage Modelling	—Unverified
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta	Dec 31, 2024	Multiple-choiceQuestion Answering	—Unverified
Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation	Jan 1, 2025	Language ModelingLanguage Modelling	—Unverified
ExplanationLP: Abductive Reasoning for Explainable Science Question Answering	Oct 25, 2020	Answer SelectionARC	—Unverified
Can ChatGPT pass the Vietnamese National High School Graduation Examination?	Jun 15, 2023	Language ModelingLanguage Modelling	—Unverified
Answering questions by learning to rank -- Learning to rank by answering questions	Sep 2, 2019	ARCLearning-To-Rank	—Unverified
Explore then Determine: A GNN-LLM Synergy Framework for Reasoning over Knowledge Graph	Jun 3, 2024	Knowledge GraphsMultiple-choice	—Unverified
Can Crowdsourcing be used for Effective Annotation of Arabic?	May 1, 2014	Entity ResolutionMultiple-choice	—Unverified
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Enhancing Multiple-Choice Question Answering with Causal Knowledge	Jun 1, 2021	Multiple-choiceQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 8 of 23Next →

No leaderboard results yet.