Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1107 papers

Title	Date	Tasks	Status
Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation	Sep 23, 2024	Multiple-choiceQuestion Answering	—Unverified
Evaluating the Performance and Robustness of LLMs in Materials Science Q&A and Property Predictions	Sep 22, 2024	Band GapIn-Context Learning	—Unverified
QMOS: Enhancing LLMs for Telecommunication with Question Masked loss and Option Shuffling	Sep 21, 2024	Multiple-choicePrompt Engineering	CodeCode Available
First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge	Sep 20, 2024	Multiple-choiceQuestion Answering	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified
Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights	Sep 19, 2024	Decision MakingKnowledge Distillation	—Unverified
Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models	Sep 19, 2024	EthicsMultiple-choice	CodeCode Available
LLM-as-a-Judge & Reward Model: What They Can and Cannot Do	Sep 17, 2024	Language ModelingLanguage Modelling	—Unverified
Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia	Sep 13, 2024	MathMultiple-choice	—Unverified
Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement	Sep 10, 2024	Multiple-choiceSentence	—Unverified
Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach	Sep 9, 2024	Computational EfficiencyContinual Pretraining	CodeCode Available
COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes	Sep 6, 2024	Multiple-choiceQuestion Answering	CodeCode Available
MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models	Sep 5, 2024	Multiple-choice	—Unverified
The Role of Large Language Models in Musicology: Are We Ready to Trust the Machines?	Sep 3, 2024	Multiple-choiceQuestion Generation	—Unverified
Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning	Aug 30, 2024	Causal Language ModelingContinual Learning	—Unverified
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options	Aug 27, 2024	Decision MakingMultiple-choice	CodeCode Available
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models	Aug 25, 2024	Language ModelingLanguage Modelling	CodeCode Available
Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations	Aug 22, 2024	Multiple-choice	—Unverified
Differentiating Choices via Commonality for Multiple-Choice Question Answering	Aug 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available
How Susceptible are LLMs to Influence in Prompts?	Aug 17, 2024	Multiple-choiceQuestion Answering	—Unverified
Measuring Agreeableness Bias in Multimodal Models	Aug 17, 2024	Decision MakingMultiple-choice	CodeCode Available
Chain-of-Exemplar: Enhancing Distractor Generation for Multimodal Educational Question Generation	Aug 16, 2024	Distractor GenerationMultiple-choice	CodeCode Available
Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil	Aug 9, 2024	MathMultiple-choice	—Unverified
LLaVA-OneVision: Easy Visual Task Transfer	Aug 6, 2024	3D Question Answering (3D-QA)	CodeCode Available
Winning Amazon KDD Cup'24	Aug 5, 2024	Data AugmentationMultiple-choice	—Unverified
Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets	Aug 4, 2024	Few-Shot LearningMachine Reading Comprehension	—Unverified
Improved Few-Shot Image Classification Through Multiple-Choice Questions	Jul 23, 2024	ArticlesFew-Shot Image Classification	—Unverified
Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models	Jul 23, 2024	Language ModellingLarge Language Model	—Unverified
MIBench: Evaluating Multimodal Large Language Models over Multiple Images	Jul 21, 2024	In-Context LearningMultiple-choice	—Unverified
Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions	Jul 21, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment	Jul 20, 2024	Contrastive LearningMultiple-choice	CodeCode Available
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Adversarial Databases Improve Success in Retrieval-based Large Language Models	Jul 19, 2024	Multiple-choiceRAG	—Unverified
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models	Jul 16, 2024	GPUMultiple-choice	—Unverified
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models	Jul 15, 2024	Common Sense ReasoningMultiple-choice	—Unverified
AstroMLab 1: Who Wins Astronomy Jeopardy!?	Jul 15, 2024	AstronomyBenchmarking	—Unverified
LAB-Bench: Measuring Capabilities of Language Models for Biology Research	Jul 14, 2024	Language ModellingMultiple-choice	—Unverified
Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures?	Jul 12, 2024	Logical ReasoningMultiple-choice	CodeCode Available
Evaluating Nuanced Bias in Large Language Model Free Response Answers	Jul 11, 2024	BenchmarkingLanguage Modeling	—Unverified
Self-Recognition in Language Models	Jul 9, 2024	Multiple-choice	CodeCode Available
Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty?	Jul 7, 2024	Multiple-choice	CodeCode Available
Are Large Language Models Consistent over Value-laden Questions?	Jul 3, 2024	Multiple-choice	CodeCode Available
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?	Jul 2, 2024	Graph MiningLanguage Modeling	CodeCode Available
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models	Jul 2, 2024	Multiple-choice	—Unverified
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions	Jun 27, 2024	Distractor GenerationMath	CodeCode Available
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
Length Optimization in Conformal Prediction	Jun 27, 2024	Conformal PredictionLanguage Modeling	CodeCode Available
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation	Jun 25, 2024	ARCBenchmarking	CodeCode Available
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration	Jun 24, 2024	DiversityMultiple-choice	—Unverified
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages	Jun 20, 2024	Language ModellingLarge Language Model	—Unverified

Show:10 25 50

← PrevPage 12 of 23Next →

No leaderboard results yet.