Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 1107 papers

Title	Date	Tasks	Status
Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets	Aug 4, 2024	Few-Shot LearningMachine Reading Comprehension	—Unverified
Improved Few-Shot Image Classification Through Multiple-Choice Questions	Jul 23, 2024	ArticlesFew-Shot Image Classification	—Unverified
Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models	Jul 23, 2024	Language ModellingLarge Language Model	—Unverified
MIBench: Evaluating Multimodal Large Language Models over Multiple Images	Jul 21, 2024	In-Context LearningMultiple-choice	—Unverified
Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions	Jul 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment	Jul 20, 2024	Contrastive LearningMultiple-choice	CodeCode Available
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Adversarial Databases Improve Success in Retrieval-based Large Language Models	Jul 19, 2024	Multiple-choiceRAG	—Unverified
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models	Jul 16, 2024	GPUMultiple-choice	—Unverified
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models	Jul 15, 2024	Common Sense ReasoningMultiple-choice	—Unverified
AstroMLab 1: Who Wins Astronomy Jeopardy!?	Jul 15, 2024	AstronomyBenchmarking	—Unverified
LAB-Bench: Measuring Capabilities of Language Models for Biology Research	Jul 14, 2024	Language ModellingMultiple-choice	—Unverified
Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures?	Jul 12, 2024	Logical ReasoningMultiple-choice	CodeCode Available
Evaluating Nuanced Bias in Large Language Model Free Response Answers	Jul 11, 2024	BenchmarkingLanguage Modeling	—Unverified
Self-Recognition in Language Models	Jul 9, 2024	Multiple-choice	CodeCode Available
Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty?	Jul 7, 2024	Multiple-choice	CodeCode Available
Are Large Language Models Consistent over Value-laden Questions?	Jul 3, 2024	Multiple-choice	CodeCode Available
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?	Jul 2, 2024	Graph MiningLanguage Modeling	CodeCode Available
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models	Jul 2, 2024	Multiple-choice	—Unverified
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions	Jun 27, 2024	Distractor GenerationMath	CodeCode Available
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
Length Optimization in Conformal Prediction	Jun 27, 2024	Conformal PredictionLanguage Modeling	CodeCode Available
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation	Jun 25, 2024	ARCBenchmarking	CodeCode Available
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages	Jun 20, 2024	Language ModellingLarge Language Model	—Unverified

Show:10 25 50

← PrevPage 24 of 45Next →

No leaderboard results yet.