Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1107 papers

Title	Date	Tasks	Status
LLM-based Text Simplification and its Effect on User Comprehension and Cognitive Load	May 4, 2025	ArticlesMultiple-choice	—Unverified
LookAlike: Consistent Distractor Generation in Math MCQs	May 3, 2025	Distractor GenerationMath	—Unverified
Adaptive Wizard for Removing Cross-Tier Misconfigurations in Active Directory	May 2, 2025	Multiple-choice	—Unverified
Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors	May 2, 2025	High School PhysicsMisconceptions	CodeCode Available
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning	Apr 22, 2025	Multiple-choicereinforcement-learning	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models	Apr 20, 2025	DescriptiveEthics	—Unverified
Assessing AI-Generated Questions' Alignment with Cognitive Frameworks in Educational Assessment	Apr 19, 2025	ClassificationMultiple-choice	—Unverified
DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain	Apr 18, 2025	Multiple-choice	—Unverified
D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Model	Apr 18, 2025	Distractor GenerationMultiple-choice	—Unverified
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items	Apr 15, 2025	BenchmarkingMultiple-choice	—Unverified
AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark	Apr 14, 2025	ManagementMultiple-choice	—Unverified
Large Language Models Could Be Rote Learners	Apr 11, 2025	MemorizationMMLU	—Unverified
Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation	Apr 9, 2025	Multiple-choice	CodeCode Available
InstructionBench: An Instructional Video Understanding Benchmark	Apr 7, 2025	Common Sense ReasoningMultiple-choice	—Unverified
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
From ChatGPT to DeepSeek AI: A Comprehensive Analysis of Evolution, Deviation, and Future Implications in AI-Language Models	Apr 4, 2025	Multiple-choice	—Unverified
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence	Apr 3, 2025	Multiple-choice	CodeCode Available
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning	Mar 31, 2025	Multiple-choice	—Unverified
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models	Mar 30, 2025	Knowledge GraphsMultiple-choice	CodeCode Available
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark	Mar 22, 2025	Multiple-choice	—Unverified
SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia	Mar 21, 2025	Multiple-choice	—Unverified

Show:10 25 50

← PrevPage 14 of 45Next →

No leaderboard results yet.