Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1107 papers

Title	Date	Tasks	Status	Hype	Score
Can large language models reason about medical questions?	Jul 17, 2022	MedQAMultiple-choice	CodeCode Available	1	5
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models	Jul 20, 2023	BenchmarkingLanguage Modeling	CodeCode Available	1	5
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models	May 17, 2023	Instruction FollowingMultiple-choice	CodeCode Available	1	5
GPT Takes the Bar Exam	Dec 29, 2022	Hyperparameter OptimizationMultiple-choice	CodeCode Available	1	5
A Few More Examples May Be Worth Billions of Parameters	Oct 8, 2021	Extractive Question-AnsweringMultiple-choice	CodeCode Available	1	5
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
Long Horizon Temperature Scaling	Feb 7, 2023	Multiple-choice	CodeCode Available	1	5
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce	Jun 14, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1	5
Marathon: A Race Through the Realm of Long Context with Large Language Models	Dec 15, 2023	Long-Context UnderstandingMultiple-choice	CodeCode Available	1	5
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1	5
LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts	Jul 6, 2024	Logical ReasoningMathematical Reasoning	CodeCode Available	1	5
A BERT-based Distractor Generation Scheme with Multi-tasking and Negative Answer Training Strategies.	Nov 1, 2020	Distractor GenerationMultiple-choice	CodeCode Available	1	5
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models	Feb 24, 2025	Logical ReasoningMultiple-choice	CodeCode Available	1	5
Delving into the Reversal Curse: How Far Can Large Language Models Generalize?	Oct 24, 2024	Multiple-choice	CodeCode Available	1	5
LongHealth: A Question Answering Benchmark with Long Clinical Documents	Jan 25, 2024	Information RetrievalMultiple-choice	CodeCode Available	1	5
Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities	May 23, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering	Apr 7, 2025	Chart Question AnsweringChart Understanding	CodeCode Available	1	5
Surface Form Competition: Why the Highest Probability Answer Isn’t Always Right	Nov 1, 2021	FormMultiple-choice	CodeCode Available	1	5
Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models	Nov 10, 2023	GSM8KMemorization	CodeCode Available	1	5
LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs	Aug 16, 2024	Instruction FollowingMultiple-choice	CodeCode Available	1	5
IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages	Nov 8, 2020	Genre classificationMultiple-choice	CodeCode Available	1	5
InfiniBench: A Comprehensive Benchmark for Large Multimodal Models in Very Long Video Understanding	Jun 28, 2024	Multiple-choiceVideo Understanding	CodeCode Available	1	5
LifeQA: A Real-life Dataset for Video Question Answering	May 1, 2020	Multiple-choiceQuestion Answering	CodeCode Available	1	5
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation	Jun 4, 2025	Multiple-choice	CodeCode Available	1	5
ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive Summarization	Sep 9, 2021	Abstractive Text SummarizationDecoder	CodeCode Available	1	5
Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling	Feb 26, 2024	Multiple-choice	CodeCode Available	1	5
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering	Apr 21, 2020	Data AugmentationMachine Reading Comprehension	CodeCode Available	1	5
Enhancing Knowledge Tracing with Concept Map and Response Disentanglement	Aug 23, 2024	DisentanglementKnowledge Tracing	CodeCode Available	1	5
Clues Before Answers: Generation-Enhanced Multiple-Choice QA	Apr 30, 2022	DecoderMultiple-choice	CodeCode Available	1	5
CUPCase: Clinically Uncommon Patient Cases and Diagnoses Dataset	Mar 8, 2025	Multiple-choice	CodeCode Available	1	5
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning	Jan 25, 2024	Multiple-choicePosition	CodeCode Available	1	5
JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning	Oct 16, 2023	Domain AdaptationMedical Question Answering	CodeCode Available	1	5
Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations	Oct 2, 2023	In-Context LearningInstruction Following	CodeCode Available	1	5
CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models	Nov 27, 2024	BenchmarkingEarth Observation	CodeCode Available	1	5
Training Trajectories of Language Models Across Scales	Dec 19, 2022	In-Context LearningMultiple-choice	CodeCode Available	1	5
Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning	May 22, 2024	Mathematical ReasoningMultiple-choice	CodeCode Available	1	5
Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward	May 3, 2020	Abstractive Text SummarizationCloze Test	CodeCode Available	1	5
TSQA: Tabular Scenario Based Question Answering	Jan 14, 2021	Machine Reading ComprehensionMultiple-choice	CodeCode Available	1	5
Counterfactual Variable Control for Robust and Interpretable Question Answering	Oct 12, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
A BERT-based Distractor Generation Scheme with Multi-tasking and Negative Answer Training Strategies	Oct 12, 2020	Distractor GenerationMultiple-choice	CodeCode Available	1	5
Language Model Uncertainty Quantification with Attention Chain	Mar 24, 2025	Computational EfficiencyLanguage Modeling	CodeCode Available	1	5
Large Language Models Encode Clinical Knowledge	Dec 26, 2022	Clinical KnowledgeMedQA	CodeCode Available	1	5
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1	5
LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models	Aug 20, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1	5
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1	5
Assessing the Chemical Intelligence of Large Language Models	May 12, 2025	Multiple-choice	CodeCode Available	1	5
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1	5
MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework	Oct 2, 2024	BenchmarkingInstruction Following	CodeCode Available	1	5
Constructing Narrative Event Evolutionary Graph for Script Event Prediction	May 14, 2018	Graph Neural NetworkMultiple-choice	CodeCode Available	1	5
Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark	Mar 26, 2025	MMLUMultiple-choice	CodeCode Available	1	5

Show:10 25 50

← PrevPage 5 of 23Next →

No leaderboard results yet.