SOTAVerified|Agents Browse Leaderboard About

Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 1107 papers

Title	Date	Tasks	Status	Hype
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Enhancing Knowledge Tracing with Concept Map and Response Disentanglement	Aug 23, 2024	DisentanglementKnowledge Tracing	CodeCode Available	1
Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams	Mar 29, 2023	Multiple-choice	CodeCode Available	1
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding	Aug 17, 2023	DiagnosticEgoSchema	CodeCode Available	1
ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive Summarization	Sep 9, 2021	Abstractive Text SummarizationDecoder	CodeCode Available	1
SportQA: A Benchmark for Sports Understanding in Large Language Models	Feb 24, 2024	Few-Shot LearningMultiple-choice	CodeCode Available	1
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework	Jul 24, 2023	Contrastive LearningMultimodal Reasoning	CodeCode Available	1
STARC: Structured Annotations for Reading Comprehension	Apr 30, 2020	Multiple-choiceReading Comprehension	CodeCode Available	1
Evaluating language models as risk scores	Jul 19, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1
Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom	Apr 30, 2024	ImplicaturesMultiple-choice	CodeCode Available	1

Show:10 25 50

← PrevPage 23 of 111Next →

No leaderboard results yet.