Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 1107 papers

Title	Date	Tasks	Status
A statistical model for aggregating judgments by incorporating peer predictions	Mar 14, 2017	counterfactualMultiple-choice	—Unverified
Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III	Jun 29, 2025	Model SelectionMultiple-choice	—Unverified
Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings	Jun 17, 2025	Decision MakingLanguage Modeling	—Unverified
Identification of mental fatigue in language comprehension tasks based on EEG and deep learning	Apr 14, 2021	ClassificationEEG	—Unverified
Treatment Effects with Multidimensional Unobserved Heterogeneity: Identification of the Marginal Treatment Effect	Sep 23, 2022	Multiple-choice	—Unverified
Identifying Multiple Personalities in Large Language Models with External Evaluation	Feb 22, 2024	Multiple-choice	—Unverified
How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering?	Jun 19, 2025	Multiple-choiceQuestion Answering	—Unverified
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
IIE-NLP-Eyas at SemEval-2021 Task 4: Enhancing PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation	Feb 25, 2021	Multiple-choiceQuestion Answering	—Unverified
IIE-NLP-NUT at SemEval-2020 Task 4: Guiding PLM with Prompt Template Reconstruction Strategy for ComVE	Jul 2, 2020	Multiple-choiceQuestion Answering	—Unverified
Confidence-Aware Learning Assistant	Feb 15, 2021	Multiple-choice	—Unverified
HindiLLM: Large Language Model for Hindi	Dec 29, 2024	Language ModelingLanguage Modelling	—Unverified
Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation	Jan 12, 2025	AttributeMultiple-choice	—Unverified
Comparative Study of Learning Outcomes for Online Learning Platforms	Apr 15, 2021	Active LearningMultiple-choice	—Unverified
HFL-RC System at SemEval-2018 Task 11: Hybrid Multi-Aspects Model for Commonsense Reading Comprehension	Mar 15, 2018	Multiple-choiceReading Comprehension	—Unverified
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified
Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding	Jan 13, 2024	Multiple-choicePrompt Engineering	—Unverified
An Algorithm for Generating Gap-Fill Multiple Choice Questions of an Expert System	Sep 17, 2021	Multiple-choicesoftware testing	—Unverified
Combining Multiple Cues for Visual Madlibs Question Answering	Nov 1, 2016	AttributeGeneral Classification	—Unverified
Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs	May 24, 2023	Multiple-choice	—Unverified
HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models	Jul 17, 2025	Multiple-choice	—Unverified
Combinatorial framework for planning in geological exploration	Jan 22, 2018	AttributeMultiple-choice	—Unverified
Assessing Distractors in Multiple-Choice Tests	Nov 8, 2023	DiversityMultiple-choice	—Unverified
HashEvict: A Pre-Attention KV Cache Eviction Strategy using Locality-Sensitive Hashing	Dec 13, 2024	GPUMultiple-choice	—Unverified
HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI	Jan 26, 2025	MMLUMultiple-choice	—Unverified
Assessing AI-Generated Questions' Alignment with Cognitive Frameworks in Educational Assessment	Apr 19, 2025	ClassificationMultiple-choice	—Unverified
An AI-based Solution for Enhancing Delivery of Digital Learning for Future Teachers	Nov 9, 2021	Multiple-choiceQuestion Generation	—Unverified
Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models	Oct 18, 2024	FairnessMultiple-choice	—Unverified
HANS, are you clever? Clever Hans Effect Analysis of Neural Systems	Sep 21, 2023	Decision MakingMultiple-choice	—Unverified
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified
Collaboration among Multiple Large Language Models for Medical Question Answering	May 22, 2025	Medical Question AnsweringMultiple-choice	—Unverified
Is There No Such Thing as a Bad Question? H4R: HalluciBot For Ratiocination, Rewriting, Ranking, and Routing	Apr 18, 2024	HallucinationMultiple-choice	—Unverified
Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments	Nov 30, 2024	Multiple-choice	—Unverified
Graph-Structured Representations for Visual Question Answering	Sep 19, 2016	Multiple-choiceQuestion Answering	—Unverified
GraphITE: Estimating Individual Effects of Graph-structured Treatments	Sep 29, 2020	counterfactualDecision Making	—Unverified
COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain	May 17, 2024	Language ModelingLanguage Modelling	—Unverified
GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering	Dec 5, 2024	Information RetrievalMultiple-choice	—Unverified
CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models	Mar 20, 2025	Code GenerationMultiple-choice	—Unverified
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs	Jun 11, 2025	Multiple-choice	—Unverified
GPT-4 to GPT-3.5: 'Hold My Scalpel' -- A Look at the Competency of OpenAI's GPT on the Plastic Surgery In-Service Training Exam	Apr 4, 2023	Multiple-choice	—Unverified
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified
CoddLLM: Empowering Large Language Models for Data Analytics	Feb 1, 2025	Multiple-choiceSynthetic Data Generation	—Unverified
A Semantic Parsing Algorithm to Solve Linear Ordering Problems	Feb 12, 2025	Multiple-choiceSemantic Parsing	—Unverified
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark	Mar 22, 2025	Multiple-choice	—Unverified
Good, Better, Best: Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning	Oct 21, 2019	Data AugmentationDecision Making	—Unverified
GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks	Oct 22, 2024	Code GenerationCode Summarization	—Unverified
A Semantic Feature-Wise Transformation Relation Network for Automatic Short Answer Grading	Nov 1, 2021	automatic short answer gradingData Augmentation	—Unverified
An Add-On for Empowering Google Forms to be an Automatic Question Generator in Online Assessments	Sep 21, 2021	Multiple-choice	—Unverified
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions	May 26, 2025	Multiple-choice	—Unverified
GenNet : Reading Comprehension with Multiple Choice Questions using Generation and Selection model	Mar 3, 2020	Answer GenerationMachine Reading Comprehension	—Unverified

Show:10 25 50

← PrevPage 11 of 23Next →

No leaderboard results yet.