Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 1107 papers

Title	Date	Tasks	Status
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta	Dec 31, 2024	Multiple-choiceQuestion Answering	—Unverified
Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?	Mar 16, 2023	Multiple-choice	—Unverified
Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation	Jan 1, 2025	Language ModelingLanguage Modelling	—Unverified
Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge	Mar 14, 2024	Multiple-choice	—Unverified
Answering questions by learning to rank -- Learning to rank by answering questions	Sep 2, 2019	ARCLearning-To-Rank	—Unverified
How Additional Knowledge can Improve Natural Language Commonsense Question Answering?	Sep 19, 2019	ArticlesLanguage Modeling	—Unverified
Enhancing Multiple-Choice Question Answering with Causal Knowledge	Jun 1, 2021	Multiple-choiceQuestion Answering	—Unverified
Exposing the Limits of Video-Text Models through Contrast Sets	Jan 16, 2022	Language ModelingLanguage Modelling	—Unverified
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified
Enhancing Multiple-choice Machine Reading Comprehension by Punishing Illogical Interpretations	Nov 1, 2021	AttributeMachine Reading Comprehension	—Unverified
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees	Nov 4, 2024	Multiple-choiceQuestion Answering	—Unverified
Answering Chinese Elementary School Social Studies Multiple Choice Questions	Dec 1, 2021	Multiple-choice	—Unverified
FAMULUS: Interactive Annotation and Feedback Generation for Teaching Diagnostic Reasoning	Aug 29, 2019	DiagnosticMultiple-choice	—Unverified
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models	Apr 20, 2025	DescriptiveEthics	—Unverified
Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning	May 24, 2025	Multiple-choicePrompt Engineering	—Unverified
AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic	Mar 14, 2024	EthicsMultiple-choice	—Unverified
FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding	Mar 19, 2025	BenchmarkingMultiple-choice	—Unverified
Enhancing LLM Evaluations: The Garbling Trick	Nov 3, 2024	Multiple-choice	—Unverified
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models	Mar 15, 2024	Few-Shot Image Classificationimage-classification	—Unverified
Field-testing items using artificial intelligence: Natural language processing with transformers	Oct 18, 2023	Multiple-choice	—Unverified
Answering Chinese Elementary School Social Study Multiple Choice Questions	Jun 26, 2021	Multiple-choiceNegation	—Unverified
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified
Enhancing Event Causality Identification with Rationale and Structure-Aware Causal Question Answering	Mar 17, 2024	Event Causality IdentificationMultiple-choice	—Unverified
Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration	Jun 19, 2024	BenchmarkingDistractor Generation	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified

Show:10 25 50

← PrevPage 17 of 45Next →

No leaderboard results yet.