Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 1107 papers

Title	Date	Tasks	Status	Hype
On the Reasoning Capacity of AI Models and How to Quantify It	Jan 23, 2025	MemorizationMMLU	—Unverified	0
The AI Penalization Effect: People Reduce Compensation for Workers Who Use AI	Jan 22, 2025	Multiple-choice	—Unverified	0
Patent Figure Classification using Large Vision-language Models	Jan 22, 2025	ClassificationFew-Shot Learning	CodeCode Available	0
Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction	Jan 21, 2025	Distractor GenerationMisconceptions	—Unverified	0
MedS^3: Towards Medical Small Language Models with Self-Evolved Slow Thinking	Jan 21, 2025	Multiple-choice	CodeCode Available	2
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified	0
FaceXBench: Evaluating Multimodal LLMs on Face Understanding	Jan 17, 2025	FairnessMultiple-choice	CodeCode Available	1
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong	Jan 16, 2025	Multiple-choice	—Unverified	0
Vision-Language Models Do Not Understand Negation	Jan 16, 2025	Multiple-choiceNegation	—Unverified	0
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework	Jan 16, 2025	Multiple-choiceQuestion Generation	—Unverified	0
Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History	Jan 15, 2025	Multiple-choiceQuestion Answering	—Unverified	0
ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind	Jan 15, 2025	BenchmarkingMultiple-choice	CodeCode Available	1
Rethinking AI Cultural Alignment	Jan 13, 2025	Multiple-choice	—Unverified	0
Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation	Jan 12, 2025	AttributeMultiple-choice	—Unverified	0
ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian	Jan 12, 2025	BenchmarkingMath	CodeCode Available	1
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified	0
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available	0
Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs	Jan 10, 2025	Multiple-choice	CodeCode Available	0
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified	0
Knowledge Retrieval Based on Generative AI	Jan 8, 2025	Large Language ModelMultiple-choice	—Unverified	0
Localizing AI: Evaluating Open-Weight Language Models for Languages of Baltic States	Jan 7, 2025	Machine TranslationMultiple-choice	—Unverified	0
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1
(WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges	Jan 3, 2025	Multiple-choiceQuestion Answering	CodeCode Available	0
CLIP-UP: CLIP-Based Unanswerable Problem Detection for Visual Question Answering	Jan 2, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Unifying Specialized Visual Encoders for Video Language Models	Jan 2, 2025	Multiple-choiceVideo Understanding	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 45Next →

No leaderboard results yet.