Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1107 papers

Title	Date	Tasks	Status
KoBALT: Korean Benchmark For Advanced Linguistic Tasks	May 22, 2025	Multiple-choice	—Unverified
AutoMCQ -- Automatically Generate Code Comprehension Questions using GenAI	May 22, 2025	Multiple-choice	—Unverified
Set-LLM: A Permutation-Invariant LLM	May 21, 2025	Multiple-choiceQuestion Answering	—Unverified
Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack	May 21, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets	May 21, 2025	Dataset GenerationDescriptive	—Unverified
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications	May 20, 2025	Mathematical ReasoningMultiple-choice	—Unverified
Uncovering Cultural Representation Disparities in Vision-Language Models	May 20, 2025	Multiple-choice	—Unverified
MR. Judge: Multimodal Reasoner as a Judge	May 19, 2025	MM-VetMultiple-choice	—Unverified
LEXam: Benchmarking Legal Reasoning on 340 Law Exams	May 19, 2025	BenchmarkingLegal Reasoning	—Unverified
Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches	May 18, 2025	FairnessMemorization	CodeCode Available
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training	May 16, 2025	Multiple-choicetext-classification	—Unverified
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models	May 16, 2025	BenchmarkingDecision Making	—Unverified
Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation	May 15, 2025	InformativenessMultiple-choice	—Unverified
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think	May 15, 2025	Multiple-choice	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation	May 14, 2025	Autonomous DrivingAutonomous Navigation	—Unverified
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models	May 13, 2025	FormMultiple-choice	CodeCode Available
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora	May 13, 2025	BenchmarkingDiagnostic	CodeCode Available
How well do LLMs reason over tabular data, really?	May 12, 2025	Missing ValuesMultiple-choice	—Unverified
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified
Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students' (Mis)Understanding Is Hinted	May 9, 2025	Language ModelingLanguage Modelling	—Unverified
ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant	May 6, 2025	DescriptiveMultiple-choice	CodeCode Available
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks	May 6, 2025	BenchmarkingMultiple-choice	CodeCode Available
Unlearning vs. Obfuscation: Are We Truly Removing Knowledge?	May 5, 2025	Multiple-choice	—Unverified
Developing A Framework to Support Human Evaluation of Bias in Generated Free Response Text	May 5, 2025	Multiple-choice	—Unverified
LLM-based Text Simplification and its Effect on User Comprehension and Cognitive Load	May 4, 2025	ArticlesMultiple-choice	—Unverified
LookAlike: Consistent Distractor Generation in Math MCQs	May 3, 2025	Distractor GenerationMath	—Unverified
Adaptive Wizard for Removing Cross-Tier Misconfigurations in Active Directory	May 2, 2025	Multiple-choice	—Unverified
Harnessing Structured Knowledge: A Concept Map-Based Approach for High-Quality Multiple Choice Question Generation with Effective Distractors	May 2, 2025	High School PhysicsMisconceptions	CodeCode Available
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning	Apr 22, 2025	Multiple-choicereinforcement-learning	—Unverified
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models	Apr 20, 2025	DescriptiveEthics	—Unverified
Assessing AI-Generated Questions' Alignment with Cognitive Frameworks in Educational Assessment	Apr 19, 2025	ClassificationMultiple-choice	—Unverified
DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain	Apr 18, 2025	Multiple-choice	—Unverified
D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Model	Apr 18, 2025	Distractor GenerationMultiple-choice	—Unverified
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items	Apr 15, 2025	BenchmarkingMultiple-choice	—Unverified
AgMMU: A Comprehensive Agricultural Multimodal Understanding and Reasoning Benchmark	Apr 14, 2025	ManagementMultiple-choice	—Unverified
Large Language Models Could Be Rote Learners	Apr 11, 2025	MemorizationMMLU	—Unverified
Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation	Apr 9, 2025	Multiple-choice	CodeCode Available
InstructionBench: An Instructional Video Understanding Benchmark	Apr 7, 2025	Common Sense ReasoningMultiple-choice	—Unverified
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
From ChatGPT to DeepSeek AI: A Comprehensive Analysis of Evolution, Deviation, and Future Implications in AI-Language Models	Apr 4, 2025	Multiple-choice	—Unverified
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence	Apr 3, 2025	Multiple-choice	CodeCode Available
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning	Mar 31, 2025	Multiple-choice	—Unverified
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models	Mar 30, 2025	Knowledge GraphsMultiple-choice	CodeCode Available
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark	Mar 22, 2025	Multiple-choice	—Unverified
SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia	Mar 21, 2025	Multiple-choice	—Unverified

Show:10 25 50

← PrevPage 7 of 23Next →

No leaderboard results yet.