Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 1107 papers

Title	Date	Tasks	Status	Hype
Latxa: An Open Language Model and Evaluation Suite for Basque	Mar 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Non-Linear Inference Time Intervention: Improving LLM Truthfulness	Mar 27, 2024	Large Language ModelMultiple-choice	CodeCode Available	1
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text	Mar 27, 2024	ArticlesLanguage Modeling	CodeCode Available	4
An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM	Mar 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Can multiple-choice questions really be useful in detecting the abilities of LLMs?	Mar 26, 2024	Multiple-choiceQuestion Answering	CodeCode Available	0
PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models	Mar 26, 2024	Code CompletionFew-Shot Learning	CodeCode Available	3
Understanding Long Videos with Multimodal Language Models	Mar 25, 2024	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1
Pragmatic Competence Evaluation of Large Language Models for the Korean Language	Mar 19, 2024	Few-Shot LearningMultiple-choice	CodeCode Available	0
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models	Mar 19, 2024	Multiple-choice	—Unverified	0
Enhancing Event Causality Identification with Rationale and Structure-Aware Causal Question Answering	Mar 17, 2024	Event Causality IdentificationMultiple-choice	—Unverified	0
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models	Mar 15, 2024	Few-Shot Image Classificationimage-classification	—Unverified	0
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models	Mar 15, 2024	MiscellaneousMultiple-choice	CodeCode Available	0
Towards Diverse Perspective Learning with Selection over Multiple Temporal Poolings	Mar 14, 2024	Multiple-choiceTime Series	CodeCode Available	0
AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic	Mar 14, 2024	EthicsMultiple-choice	—Unverified	0
Exploring the Comprehension of ChatGPT in Traditional Chinese Medicine Knowledge	Mar 14, 2024	Multiple-choice	—Unverified	0
Rethinking Generative Large Language Model Evaluation for Semantic Comprehension	Mar 12, 2024	Language Model EvaluationLanguage Modeling	—Unverified	0
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1
MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway Encoding	Mar 11, 2024	Dialogue GenerationMultiple-choice	—Unverified	0
Unfamiliar Finetuning Examples Control How Language Models Hallucinate	Mar 8, 2024	MMLUMultiple-choice	CodeCode Available	1
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning	Mar 5, 2024	Multiple-choice	CodeCode Available	4
An Improved Traditional Chinese Evaluation Suite for Foundation Model	Mar 4, 2024	Multiple-choiceQuestion Answering	—Unverified	0
Automated Generation of Multiple-Choice Cloze Questions for Assessing English Vocabulary Using GPT-turbo 3.5	Mar 4, 2024	Multiple-choicePart-Of-Speech Tagging	—Unverified	0
To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering	Mar 4, 2024	MedQAMMLU	CodeCode Available	1
KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations	Mar 3, 2024	MedQAMMLU	—Unverified	0

Show:10 25 50

← PrevPage 22 of 45Next →

No leaderboard results yet.