Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1107 papers

Title	Date	Tasks	Status	Hype
ParallelPARC: A Scalable Pipeline for Generating Natural-Language Analogies	Mar 2, 2024	Multiple-choice	CodeCode Available	1
NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism	Feb 29, 2024	EthicsMultiple-choice	CodeCode Available	1
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions	Feb 28, 2024	BenchmarkingMultiple-choice	CodeCode Available	1
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents	Feb 27, 2024	Document ClassificationLanguage Modeling	CodeCode Available	1
MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property	Feb 26, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models	Feb 26, 2024	Multiple-choice	CodeCode Available	1
Leveraging Large Language Models for Learning Complex Legal Concepts through Storytelling	Feb 26, 2024	Multiple-choice	CodeCode Available	1
SportQA: A Benchmark for Sports Understanding in Large Language Models	Feb 24, 2024	Few-Shot LearningMultiple-choice	CodeCode Available	1
Uncertainty-Aware Evaluation for Vision-Language Models	Feb 22, 2024	Conformal PredictionLanguage Modeling	CodeCode Available	1
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic	Feb 20, 2024	ArabicMMLULanguage Model Evaluation	CodeCode Available	1
BiMediX: Bilingual Medical Mixture of Experts LLM	Feb 20, 2024	Mixture-of-ExpertsMultiple-choice	CodeCode Available	1
The Effect of Sampling Temperature on Problem Solving in Large Language Models	Feb 7, 2024	Multiple-choicePrompt Engineering	CodeCode Available	1
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models	Feb 6, 2024	AttributeFace Anti-Spoofing	CodeCode Available	1
E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models	Jan 29, 2024	EthicsMultiple-choice	CodeCode Available	1
LongHealth: A Question Answering Benchmark with Long Clinical Documents	Jan 25, 2024	Information RetrievalMultiple-choice	CodeCode Available	1
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning	Jan 25, 2024	Multiple-choicePosition	CodeCode Available	1
The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models	Jan 11, 2024	MathMultiple-choice	CodeCode Available	1
RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models	Dec 26, 2023	MemorizationMultiple-choice	CodeCode Available	1
HyKGE: A Hypothesis Knowledge Graph Enhanced Framework for Accurate and Reliable Medical LLMs Responses	Dec 26, 2023	DiversityKnowledge Graphs	CodeCode Available	1
An In-depth Look at Gemini's Language Abilities	Dec 18, 2023	Instruction FollowingMath	CodeCode Available	1
Marathon: A Race Through the Realm of Long Context with Large Language Models	Dec 15, 2023	Long-Context UnderstandingMultiple-choice	CodeCode Available	1
Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and Layers	Dec 7, 2023	MathMultiple-choice	CodeCode Available	1
Fake Alignment: Are LLMs Really Aligned Well?	Nov 10, 2023	Multiple-choice	CodeCode Available	1
Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models	Nov 10, 2023	GSM8KMemorization	CodeCode Available	1
Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis	Nov 2, 2023	Density EstimationDiversity	CodeCode Available	1
An Open Source Data Contamination Report for Large Language Models	Oct 26, 2023	HellaSwagLanguage Modeling	CodeCode Available	1
JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning	Oct 16, 2023	Domain AdaptationMedical Question Answering	CodeCode Available	1
OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models	Oct 11, 2023	HallucinationIn-Context Learning	CodeCode Available	1
BRAINTEASER: Lateral Thinking Puzzles for Large Language Models	Oct 8, 2023	Distractor GenerationLanguage Modelling	CodeCode Available	1
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models	Oct 5, 2023	Common Sense ReasoningMultiple-choice	CodeCode Available	1
Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations	Oct 2, 2023	In-Context LearningInstruction Following	CodeCode Available	1
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Large Language Models Are Not Robust Multiple Choice Selectors	Sep 7, 2023	Computational EfficiencyMultiple-choice	CodeCode Available	1
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models	Sep 5, 2023	Code GenerationMultiple-choice	CodeCode Available	1
LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models	Aug 20, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models	Aug 18, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding	Aug 17, 2023	DiagnosticEgoSchema	CodeCode Available	1
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework	Jul 24, 2023	Contrastive LearningMultimodal Reasoning	CodeCode Available	1
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models	Jul 20, 2023	BenchmarkingLanguage Modeling	CodeCode Available	1
Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation	Jun 9, 2023	JurisprudenceManagement	CodeCode Available	1
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1
Conformal Prediction with Large Language Models for Multi-Choice Question Answering	May 28, 2023	Conformal PredictionMultiple-choice	CodeCode Available	1
NarrativeXL: A Large-scale Dataset For Long-Term Memory Models	May 23, 2023	Multiple-choiceReading Comprehension	CodeCode Available	1
VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models	May 20, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models	May 17, 2023	Instruction FollowingMultiple-choice	CodeCode Available	1
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting	May 7, 2023	Multiple-choice	CodeCode Available	1
MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic	May 5, 2023	Epistemic ReasoningLanguage Modeling	CodeCode Available	1
Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams	Mar 29, 2023	Multiple-choice	CodeCode Available	1
Explicit Planning Helps Language Models in Logical Reasoning	Mar 28, 2023	Logical ReasoningMultiple-choice	CodeCode Available	1
Long Horizon Temperature Scaling	Feb 7, 2023	Multiple-choice	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 23Next →

No leaderboard results yet.