SOTAVerified|Agents Browse Leaderboard About

Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 341–350 of 1107 papers

Title	Date	Tasks	Status	Hype
InstructionBench: An Instructional Video Understanding Benchmark	Apr 7, 2025	Common Sense ReasoningMultiple-choice	—Unverified	0
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified	0
From ChatGPT to DeepSeek AI: A Comprehensive Analysis of Evolution, Deviation, and Future Implications in AI-Language Models	Apr 4, 2025	Multiple-choice	—Unverified	0
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence	Apr 3, 2025	Multiple-choice	CodeCode Available	0
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning	Mar 31, 2025	Multiple-choice	—Unverified	0
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models	Mar 30, 2025	Knowledge GraphsMultiple-choice	CodeCode Available	0
Order Independence With Finetuning	Mar 30, 2025	ARCLanguage Modeling	—Unverified	0
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified	0
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark	Mar 22, 2025	Multiple-choice	—Unverified	0
SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia	Mar 21, 2025	Multiple-choice	—Unverified	0

Show:10 25 50

← PrevPage 35 of 111Next →

No leaderboard results yet.