Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1107 papers

Title	Date	Tasks	Status
Uncertainty quantification in fine-tuned LLMs using LoRA ensembles	Feb 19, 2024	Multiple-choiceUncertainty Quantification	CodeCode Available
KMMLU: Measuring Massive Multitask Language Understanding in Korean	Feb 18, 2024	kmmluLanguage Model Evaluation	—Unverified
Question-Instructed Visual Descriptions for Zero-Shot Video Question Answering	Feb 16, 2024	Language ModelingLanguage Modelling	CodeCode Available
DE-COP: Detecting Copyrighted Content in Language Models Training Data	Feb 15, 2024	Language ModelingLanguage Modelling	CodeCode Available
Prompting Implicit Discourse Relation Annotation	Feb 7, 2024	ClassificationImplicit Discourse Relation Classification	—Unverified
SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark	Feb 6, 2024	Multiple-choiceQuestion Answering	—Unverified
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification	Feb 6, 2024	BenchmarkingMultiple-choice	—Unverified
Enhancing textual textbook question answering with large language models and retrieval augmented generation	Feb 5, 2024	Multiple-choiceQuestion Answering	CodeCode Available
LLMs May Perform MCQA by Selecting the Least Incorrect Option	Feb 2, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Distractor Generation in Multiple-Choice Tasks: A Survey of Methods, Datasets, and Evaluation	Feb 2, 2024	Distractor GenerationMultiple-choice	—Unverified
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards	Feb 1, 2024	Answer SelectionLanguage Modeling	CodeCode Available
An Information-Theoretic Approach to Analyze NLP Classification Tasks	Feb 1, 2024	Multiple-choiceReading Comprehension	CodeCode Available
Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis	Jan 28, 2024	Knowledge GraphsMedical Diagnosis	—Unverified
Towards Collective Superintelligence: Amplifying Group IQ using Conversational Swarms	Jan 25, 2024	Decision MakingMultiple-choice	—Unverified
Instruction Fine-Tuning: Does Prompt Loss Matter?	Jan 24, 2024	Multiple-choicetoken-classification	—Unverified
What Large Language Models Know and What People Think They Know	Jan 24, 2024	ArticlesDecision Making	—Unverified
Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings	Jan 15, 2024	Knowledge Graph EmbeddingsKnowledge Graphs	CodeCode Available
A Study on Large Language Models' Limitations in Multiple-Choice Question Answering	Jan 15, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding	Jan 13, 2024	Multiple-choicePrompt Engineering	—Unverified
Automated Answer Validation using Text Similarity	Jan 13, 2024	Information RetrievalMultiple-choice	—Unverified
A Novel Multi-Stage Prompting Approach for Language Agnostic MCQ Generation using GPT	Jan 13, 2024	Distractor GenerationMultiple-choice	CodeCode Available
PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities	Jan 13, 2024	Instruction FollowingMultiple-choice	—Unverified
A Joint-Reasoning based Disease Q&A System	Jan 6, 2024	Knowledge GraphsMisinformation	—Unverified
The Earth is Flat? Unveiling Factual Errors in Large Language Models	Jan 1, 2024	In-Context LearningMultiple-choice	—Unverified
FusionMind -- Improving question and answering with external context fusion	Dec 31, 2023	Knowledge GraphsMultiple-choice	—Unverified
SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security	Dec 26, 2023	Computer SecurityMultiple-choice	CodeCode Available
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available
Perception Test 2023: A Summary of the First Challenge And Outcome	Dec 20, 2023	BenchmarkingGrounded Video Question Answering	—Unverified
BloomVQA: Assessing Hierarchical Multi-modal Comprehension	Dec 20, 2023	Data AugmentationMemorization	—Unverified
Multiple Hypothesis Dropout: Estimating the Parameters of Multi-Modal Output Distributions	Dec 18, 2023	Multiple-choicePedestrian Trajectory Prediction	CodeCode Available
Self-Evaluation Improves Selective Generation in Large Language Models	Dec 14, 2023	Multiple-choiceTruthfulQA	—Unverified
A Foundational Multimodal Vision Language AI Assistant for Human Pathology	Dec 13, 2023	Decision MakingDiagnostic	—Unverified
A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education	Dec 5, 2023	Multiple-choice	—Unverified
Unleashing the Potential of Large Language Model: Zero-shot VQA for Flood Disaster Scenario	Dec 4, 2023	Language ModelingLanguage Modelling	—Unverified
Explanatory Argument Extraction of Correct Answers in Resident Medical Exams	Dec 1, 2023	Multiple-choice	CodeCode Available
Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension	Nov 30, 2023	Multiple-choiceReading Comprehension	—Unverified
CLOMO: Counterfactual Logical Modification with Large Language Models	Nov 29, 2023	counterfactualCounterfactual Reasoning	CodeCode Available
ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology	Nov 16, 2023	MMLUMultiple-choice	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
Downstream Trade-offs of a Family of Text Watermarks	Nov 16, 2023	FormLanguage Modelling	CodeCode Available
Evaluating LLMs on Document-Based QA: Exact Answer Selection and Numerical Extraction using Cogtale dataset	Nov 14, 2023	Answer SelectionInformation Retrieval	—Unverified
It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning	Nov 13, 2023	Multiple-choice	CodeCode Available
Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks	Nov 9, 2023	Multiple-choiceWorld Knowledge	—Unverified
Assessing Distractors in Multiple-Choice Tests	Nov 8, 2023	DiversityMultiple-choice	—Unverified
Evaluating multiple large language models in pediatric ophthalmology	Nov 7, 2023	Multiple-choice	—Unverified
Evaluating the Potential of Leading Large Language Models in Reasoning Biology Questions	Nov 5, 2023	Logical ReasoningMultiple-choice	—Unverified
More Robots are Coming: Large Multimodal Models (ChatGPT) can Solve Visually Diverse Images of Parsons Problems	Nov 3, 2023	Multiple-choice	—Unverified
CASE: Commonsense-Augmented Score with an Expanded Answer Space	Nov 3, 2023	Multiple-choice	CodeCode Available
DeSIQ: Towards an Unbiased, Challenging Benchmark for Social Intelligence Understanding	Oct 24, 2023	Language ModelingLanguage Modelling	—Unverified
POE: Process of Elimination for Multiple Choice Reasoning	Oct 24, 2023	In-Context LearningLogical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 15 of 23Next →

No leaderboard results yet.