SOTAVerified|Agents Browse Leaderboard About

Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 281–290 of 1107 papers

Title	Date	Tasks	Status	Hype
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation	May 30, 2025	Continual PretrainingFairness	CodeCode Available	0
VUDG: A Dataset for Video Understanding Domain Generalization	May 30, 2025	Domain GeneralizationMultiple-choice	—Unverified	0
PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain	May 30, 2025	Instruction FollowingMultiple-choice	—Unverified	0
ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases	May 30, 2025	Medical Question AnsweringMultiple-choice	—Unverified	0
Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models	May 30, 2025	MathMultiple-choice	CodeCode Available	0
Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization	May 30, 2025	FormLanguage Modeling	—Unverified	0
SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services	May 29, 2025	BenchmarkingInformation Retrieval	CodeCode Available	0
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence	May 29, 2025	Multiple-choiceSpatial Reasoning	—Unverified	0
Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs	May 29, 2025	Image GenerationMultiple-choice	—Unverified	0
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors	May 29, 2025	MMLUMultiple-choice	CodeCode Available	0

Show:10 25 50

← PrevPage 29 of 111Next →

No leaderboard results yet.