Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 1107 papers

Title	Date	Tasks	Status
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified
Fine-tuning BERT with Focus Words for Explanation Regeneration	Dec 1, 2020	Explanation GenerationMultiple-choice	—Unverified
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models	Sep 5, 2023	Multiple-choice	—Unverified
An Automated Multiple-Choice Question Generation Using Natural Language Processing Techniques	Mar 26, 2021	Multiple-choiceQuestion Generation	—Unverified
First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge	Sep 20, 2024	Multiple-choiceQuestion Answering	—Unverified
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above	Feb 19, 2025	AllMultiple-choice	—Unverified
Training Optimus Prime, M.D.: Generating Medical Certification Items by Fine-Tuning OpenAI's gpt2 Transformer Model	Aug 23, 2019	ArticlesLanguage Modeling	—Unverified
ForecastQA: A Question Answering Challenge for Event Forecasting with Temporal Text Data	May 2, 2020	Knowledge GraphsLanguage Modelling	—Unverified
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models	Apr 29, 2024	Common Sense ReasoningMultiple-choice	—Unverified
Framing QA as Building and Ranking Intersentence Answer Justifications	Jun 1, 2017	Multiple-choiceQuestion Answering	—Unverified
From ChatGPT to DeepSeek AI: A Comprehensive Analysis of Evolution, Deviation, and Future Implications in AI-Language Models	Apr 4, 2025	Multiple-choice	—Unverified
From 'F' to 'A' on the N.Y. Regents Science Exams: An Overview of the Aristo Project	Sep 4, 2019	Multiple-choiceQuestion Answering	—Unverified
From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT	May 17, 2024	BenchmarkingMultiple-choice	—Unverified
SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing Agents	Nov 12, 2024	General KnowledgeHallucination	—Unverified
Fundamental Limitations in Defending LLM Finetuning APIs	Feb 20, 2025	Multiple-choice	—Unverified
FusionMind -- Improving question and answering with external context fusion	Dec 31, 2023	Knowledge GraphsMultiple-choice	—Unverified
GANDALF: a General Character Name Description Dataset for Long Fiction	Nov 1, 2021	Multiple-choiceQuestion Answering	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
Generalised Winograd Schema and its Contextuality	Aug 31, 2023	coreference-resolutionCoreference Resolution	—Unverified
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Who did What: A Large-Scale Person-Centered Cloze Dataset	Aug 19, 2016	ArticlesMultiple-choice	—Unverified
Generating Adequate Distractors for Multiple-Choice Questions	Oct 23, 2020	FormMultiple-choice	—Unverified
Generating Correct Answers for Progressive Matrices Intelligence Tests	Nov 1, 2020	Multiple-choice	—Unverified
Generating Diagnostic Multiple Choice Comprehension Cloze Questions	Jun 1, 2012	DiagnosticMultiple-choice	—Unverified
Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth Grade Math Answers	Apr 21, 2023	MathMultiple-choice	—Unverified
Generating multiple-choice questions for medical question answering with distractors and cue-masking	Mar 13, 2023	Language ModelingLanguage Modelling	—Unverified
Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction	Jan 21, 2025	Distractor GenerationMisconceptions	—Unverified
Generating Questions and Multiple-Choice Answers using Semantic Analysis of Texts	Dec 1, 2016	coreference-resolutionCoreference Resolution	—Unverified
GenNet : Reading Comprehension with Multiple Choice Questions using Generation and Selection model	Mar 3, 2020	Answer GenerationMachine Reading Comprehension	—Unverified
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions	May 26, 2025	Multiple-choice	—Unverified
GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks	Oct 22, 2024	Code GenerationCode Summarization	—Unverified
Good, Better, Best: Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning	Oct 21, 2019	Data AugmentationDecision Making	—Unverified
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark	Mar 22, 2025	Multiple-choice	—Unverified
Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks	Oct 7, 2023	Action RecognitionMultiple-choice	—Unverified
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified
GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of OpenAI's GPT on the Plastic Surgery In-Service Training Exam	Apr 4, 2023	Multiple-choice	—Unverified
Transliteration: A Simple Technique For Improving Multilingual Language Modeling	Sep 29, 2021	Language ModelingLanguage Modelling	—Unverified
True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3 and Challenging for GPT-4	Dec 20, 2022	Multiple-choice	—Unverified
GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering	Dec 5, 2024	Information RetrievalMultiple-choice	—Unverified
GraphITE: Estimating Individual Effects of Graph-structured Treatments	Sep 29, 2020	counterfactualDecision Making	—Unverified
Graph-Structured Representations for Visual Question Answering	Sep 19, 2016	Multiple-choiceQuestion Answering	—Unverified
Is There No Such Thing as a Bad Question? H4R: HalluciBot For Ratiocination, Rewriting, Ranking, and Routing	Apr 18, 2024	HallucinationMultiple-choice	—Unverified
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified
HANS, are you clever? Clever Hans Effect Analysis of Neural Systems	Sep 21, 2023	Decision MakingMultiple-choice	—Unverified
HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI	Jan 26, 2025	MMLUMultiple-choice	—Unverified
HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing	Dec 13, 2024	GPUMultiple-choice	—Unverified
HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models	Jul 17, 2025	Multiple-choice	—Unverified
Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs	May 24, 2023	Multiple-choice	—Unverified

Show:10 25 50

← PrevPage 13 of 23Next →

No leaderboard results yet.