Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1107 papers

Title	Date	Tasks	Status	Hype
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations	Jul 17, 2025	Language ModelingLanguage Modelling	—Unverified	0
HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models	Jul 17, 2025	Multiple-choice	—Unverified	0
MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks	Jul 3, 2025	FairnessMultiple-choice	—Unverified	0
Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III	Jun 29, 2025	Model SelectionMultiple-choice	—Unverified	0
OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs	Jun 26, 2025	DiversityMultiple-choice	—Unverified	0
Adapting Vision-Language Models for Evaluating World Models	Jun 22, 2025	Action RecognitionMultimodal Reasoning	—Unverified	0
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models	Jun 21, 2025	Mathematical ReasoningMultiple-choice	—Unverified	0
How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?	Jun 19, 2025	Multiple-choiceQuestion Answering	—Unverified	0
WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts	Jun 18, 2025	document understandingMultiple-choice	—Unverified	0
Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings	Jun 17, 2025	Decision MakingLanguage Modeling	—Unverified	0
Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding	Jun 17, 2025	Multiple-choiceNatural Language Inference	—Unverified	0
Training-free LLM Merging for Multi-task Learning	Jun 14, 2025	Multiple-choiceMulti-Task Learning	CodeCode Available	0
Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs	Jun 13, 2025	Medical Question AnsweringMedQA	—Unverified	0
Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs	Jun 12, 2025	Multiple-choiceQuestion Answering	—Unverified	0
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs	Jun 11, 2025	Multiple-choice	—Unverified	0
VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks	Jun 10, 2025	Multiple-choiceOpen-Ended Question Answering	—Unverified	0
ARGUS: Hallucination and Omission Evaluation in Video-LLMs	Jun 9, 2025	DescriptiveForm	—Unverified	0
Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth	Jun 8, 2025	Multiple-choice	—Unverified	0
STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving	Jun 6, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms	Jun 5, 2025	Multiple-choice	—Unverified	0
Multiple-Choice Question Generation Using Large Language Models: Methodology and Educator Insights	Jun 5, 2025	Multiple-choiceQuestion Answering	—Unverified	0
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation	Jun 4, 2025	Multiple-choice	CodeCode Available	1
Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales	Jun 4, 2025	Multiple-choice	—Unverified	0
Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis	Jun 3, 2025	Multiple-choice	—Unverified	0
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean	Jun 2, 2025	Multiple-choice	CodeCode Available	1
PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain	May 30, 2025	Instruction FollowingMultiple-choice	—Unverified	0
ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases	May 30, 2025	Medical Question AnsweringMultiple-choice	—Unverified	0
VUDG: A Dataset for Video Understanding Domain Generalization	May 30, 2025	Domain GeneralizationMultiple-choice	—Unverified	0
Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization	May 30, 2025	FormLanguage Modeling	—Unverified	0
Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models	May 30, 2025	MathMultiple-choice	CodeCode Available	0
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available	0
TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine	May 29, 2025	DiagnosticMultiple-choice	—Unverified	0
SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services	May 29, 2025	BenchmarkingInformation Retrieval	CodeCode Available	0
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning	May 29, 2025	Anomaly DetectionDescriptive	CodeCode Available	2
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence	May 29, 2025	Multiple-choiceSpatial Reasoning	—Unverified	0
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors	May 29, 2025	MMLUMultiple-choice	CodeCode Available	0
Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs	May 29, 2025	Image GenerationMultiple-choice	—Unverified	0
Large Language Models Often Know When They Are Being Evaluated	May 28, 2025	MMLUMultiple-choice	—Unverified	0
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge	May 27, 2025	BenchmarkingMultiple-choice	—Unverified	0
My Answer Is NOT 'Fair': Mitigating Social Bias in Vision-Language Models via Fair and Biased Residuals	May 26, 2025	EthicsFairness	—Unverified	0
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions	May 26, 2025	Multiple-choice	—Unverified	0
CP-Router: An Uncertainty-Aware Router Between LLM and LRM	May 26, 2025	Conformal PredictionLogical Reasoning	—Unverified	0
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response	May 26, 2025	Multiple-choice	—Unverified	0
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali	May 25, 2025	General KnowledgeMMLU	CodeCode Available	0
Enhancing LLMs' Reasoning-Intensive Multimedia Search Capabilities through Fine-Tuning and Reinforcement Learning	May 24, 2025	Multiple-choicePrompt Engineering	—Unverified	0
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
KoBALT: Korean Benchmark For Advanced Linguistic Tasks	May 22, 2025	Multiple-choice	—Unverified	0
Collaboration among Multiple Large Language Models for Medical Question Answering	May 22, 2025	Medical Question AnsweringMultiple-choice	—Unverified	0
AutoMCQ -- Automatically Generate Code Comprehension Questions using GenAI	May 22, 2025	Multiple-choice	—Unverified	0

Show:10 25 50

← PrevPage 1 of 23Next →

No leaderboard results yet.