Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 1107 papers

Title	Date	Tasks	Status
AutoMCQ -- Automatically Generate Code Comprehension Questions using GenAI	May 22, 2025	Multiple-choice	—Unverified
KoBALT: Korean Benchmark For Advanced Linguistic Tasks	May 22, 2025	Multiple-choice	—Unverified
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets	May 21, 2025	Dataset GenerationDescriptive	—Unverified
Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack	May 21, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Set-LLM: A Permutation-Invariant LLM	May 21, 2025	Multiple-choiceQuestion Answering	—Unverified
Uncovering Cultural Representation Disparities in Vision-Language Models	May 20, 2025	Multiple-choice	—Unverified
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications	May 20, 2025	Mathematical ReasoningMultiple-choice	—Unverified
MR. Judge: Multimodal Reasoner as a Judge	May 19, 2025	MM-VetMultiple-choice	—Unverified
LEXam: Benchmarking Legal Reasoning on 340 Law Exams	May 19, 2025	BenchmarkingLegal Reasoning	—Unverified
Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches	May 18, 2025	FairnessMemorization	CodeCode Available
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models	May 16, 2025	BenchmarkingDecision Making	—Unverified
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training	May 16, 2025	Multiple-choicetext-classification	—Unverified
Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation	May 15, 2025	InformativenessMultiple-choice	—Unverified
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think	May 15, 2025	Multiple-choice	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation	May 14, 2025	Autonomous DrivingAutonomous Navigation	—Unverified
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models	May 13, 2025	FormMultiple-choice	CodeCode Available
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora	May 13, 2025	BenchmarkingDiagnostic	CodeCode Available
How well do LLMs reason over tabular data, really?	May 12, 2025	Missing ValuesMultiple-choice	—Unverified
Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students' (Mis)Understanding Is Hinted	May 9, 2025	Language ModelingLanguage Modelling	—Unverified
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified
ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant	May 6, 2025	DescriptiveMultiple-choice	CodeCode Available
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks	May 6, 2025	BenchmarkingMultiple-choice	CodeCode Available
Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?	May 5, 2025	Multiple-choice	—Unverified
Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text	May 5, 2025	Multiple-choice	—Unverified

Show:10 25 50

← PrevPage 13 of 45Next →

No leaderboard results yet.