Multiple Choice Question Answering (MCQA)

A multiple-choice question (MCQ) is composed of two parts: a stem that identifies the question or problem, and a set of alternatives or possible answers that contain a key that is the best answer to the question, and a number of distractors that are plausible but incorrect answers to the question.

In a k-way MCQA task, a model is provided with a question q, a set of candidate options O = {O1, . . . , Ok}, and a supporting context for each option C = {C1, . . . , Ck}. The model needs to predict the correct answer option that is best supported by the given contexts.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 65 papers

Title	Date	Tasks	Status	Hype
CP-Router: An Uncertainty-Aware Router Between LLM and LRM	May 26, 2025	Conformal PredictionLogical Reasoning	—Unverified	0
Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack	May 21, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified	0
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models	Mar 30, 2025	Knowledge GraphsMultiple-choice	CodeCode Available	0
Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework	Mar 7, 2025	Conformal PredictionMedical Question Answering	—Unverified	0
Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning	Feb 27, 2025	MathMedical Question Answering	—Unverified	0
Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores	Feb 22, 2025	Distractor GenerationInformation Retrieval	CodeCode Available	0
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above	Feb 19, 2025	AllMultiple-choice	—Unverified	0
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning	Feb 8, 2025	Legal ReasoningMultiple-choice	CodeCode Available	0
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
MedG-KRP: Medical Graph Knowledge Representation Probing	Dec 14, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available	0
LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering	Dec 13, 2024	Few-Shot LearningKnowledge Distillation	—Unverified	0
KnowledgePrompts: Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting	Dec 1, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available	0
SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval	Oct 28, 2024	Information RetrievalMultilingual Named Entity Recognition	—Unverified	0
Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models	Oct 18, 2024	FairnessMultiple-choice	—Unverified	0
Differentiating Choices via Commonality for Multiple-Choice Question Answering	Aug 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available	0
Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions	Jul 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Long Story Short: Story-level Video Understanding from 20K Short Films	Jun 14, 2024	Multiple Choice Question Answering (MCQA)Open-Ended Question Answering	—Unverified	0
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	May 13, 2024	Articles	CodeCode Available	0
AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts	May 1, 2024	Multiple Choice Question Answering (MCQA)	CodeCode Available	1
From Multiple-Choice to Extractive QA: A Case Study for English and Arabic	Apr 26, 2024	BelebeleExtractive Question-Answering	CodeCode Available	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified	0
Unsupervised multiple choices question answering via universal corpus	Feb 27, 2024	FormKnowledge Graphs	—Unverified	0
Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?	Feb 19, 2024	Decision MakingMemorization	CodeCode Available	0
LLMs May Perform MCQA by Selecting the Least Incorrect Option	Feb 2, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models	Nov 27, 2023	ArticlesConditional Text Generation	CodeCode Available	4
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations	Oct 2, 2023	In-Context LearningInstruction Following	CodeCode Available	1
BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine	Aug 18, 2023	Few-Shot LearningLanguage Modeling	—Unverified	0
Llama 2: Open Foundation and Fine-Tuned Chat Models	Jul 18, 2023	Arithmetic Reasoning	CodeCode Available	8
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models	May 17, 2023	Instruction FollowingMultiple-choice	CodeCode Available	1
Towards Expert-Level Medical Question Answering with Large Language Models	May 16, 2023	Medical Question AnsweringMedQA	CodeCode Available	1
FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain	Apr 9, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available	0
BloombergGPT: A Large Language Model for Finance	Mar 30, 2023	Causal JudgmentCommon Sense Reasoning	—Unverified	0
Generating multiple-choice questions for medical question answering with distractors and cue-masking	Mar 13, 2023	Language ModelingLanguage Modelling	—Unverified	0
Large Language Models Encode Clinical Knowledge	Dec 26, 2022	Clinical KnowledgeMedQA	CodeCode Available	1
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Leveraging Large Language Models for Multiple Choice Question Answering	Oct 22, 2022	Answer SelectionMultiple-choice	CodeCode Available	1
Variational Open-Domain Question Answering	Sep 23, 2022	Language ModellingMedQA	CodeCode Available	1
Can large language models reason about medical questions?	Jul 17, 2022	MedQAMultiple-choice	CodeCode Available	1
HRCA+: Advanced Multiple-choice Machine Reading Comprehension Method	Jun 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified	0
Clues Before Answers: Generation-Enhanced Multiple-Choice QA	Apr 30, 2022	DecoderMultiple-choice	CodeCode Available	1
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Training Compute-Optimal Large Language Models	Mar 29, 2022	AnachronismsAnalogical Similarity	CodeCode Available	6
MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering	Mar 27, 2022	DiversityMultiple-choice	CodeCode Available	2
Does Transliteration Help Multilingual Language Modeling?	Jan 29, 2022	DiversityLanguage Modeling	CodeCode Available	0
Disaggregating Hops: Can We Guide a Multi-Hop Reasoning Language Model to Incrementally Learn at each Hop?	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified	0
Context-guided Triple Matching for Multiple Choice Question Answering	Jan 16, 2022	BenchmarkingMultiple-choice	—Unverified	0
QuALITY: Question Answering with Long Input Texts, Yes!	Dec 16, 2021	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.