Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1107 papers

Title	Date	Tasks	Status	Hype
Unsupervised Commonsense Question Answering with Self-Talk	Apr 11, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
R2DE: a NLP approach to estimating IRT parameters of newly generated questions	Jan 21, 2020	Multiple-choiceQuestion Generation	CodeCode Available	1
WIQA: A dataset for "What if..." reasoning over procedural text	Sep 10, 2019	Multiple-choice	CodeCode Available	1
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1
Generating Distractors for Reading Comprehension Questions from Real Examinations	Sep 8, 2018	DecoderDistractor Generation	CodeCode Available	1
Constructing Narrative Event Evolutionary Graph for Script Event Prediction	May 14, 2018	Graph Neural NetworkMultiple-choice	CodeCode Available	1
VQA: Visual Question Answering	May 3, 2015	Image CaptioningMultiple-choice	CodeCode Available	1
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations	Jul 17, 2025	Language ModelingLanguage Modelling	—Unverified	0
HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models	Jul 17, 2025	Multiple-choice	—Unverified	0
MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks	Jul 3, 2025	FairnessMultiple-choice	—Unverified	0
Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III	Jun 29, 2025	Model SelectionMultiple-choice	—Unverified	0
OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs	Jun 26, 2025	DiversityMultiple-choice	—Unverified	0
Adapting Vision-Language Models for Evaluating World Models	Jun 22, 2025	Action RecognitionMultimodal Reasoning	—Unverified	0
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models	Jun 21, 2025	Mathematical ReasoningMultiple-choice	—Unverified	0
How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?	Jun 19, 2025	Multiple-choiceQuestion Answering	—Unverified	0
WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts	Jun 18, 2025	document understandingMultiple-choice	—Unverified	0
Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings	Jun 17, 2025	Decision MakingLanguage Modeling	—Unverified	0
Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding	Jun 17, 2025	Multiple-choiceNatural Language Inference	—Unverified	0
Training-free LLM Merging for Multi-task Learning	Jun 14, 2025	Multiple-choiceMulti-Task Learning	CodeCode Available	0
Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs	Jun 13, 2025	Medical Question AnsweringMedQA	—Unverified	0
Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs	Jun 12, 2025	Multiple-choiceQuestion Answering	—Unverified	0
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs	Jun 11, 2025	Multiple-choice	—Unverified	0
VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks	Jun 10, 2025	Multiple-choiceOpen-Ended Question Answering	—Unverified	0
ARGUS: Hallucination and Omission Evaluation in Video-LLMs	Jun 9, 2025	DescriptiveForm	—Unverified	0
Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth	Jun 8, 2025	Multiple-choice	—Unverified	0

Show:10 25 50

← PrevPage 11 of 45Next →

No leaderboard results yet.