Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 1107 papers

Title	Date	Tasks	Status	Hype
An Open Source Data Contamination Report for Large Language Models	Oct 26, 2023	HellaSwagLanguage Modeling	CodeCode Available	1
JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning	Oct 16, 2023	Domain AdaptationMedical Question Answering	CodeCode Available	1
OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models	Oct 11, 2023	HallucinationIn-Context Learning	CodeCode Available	1
BRAINTEASER: Lateral Thinking Puzzles for Large Language Models	Oct 8, 2023	Distractor GenerationLanguage Modelling	CodeCode Available	1
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models	Oct 5, 2023	Common Sense ReasoningMultiple-choice	CodeCode Available	1
Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations	Oct 2, 2023	In-Context LearningInstruction Following	CodeCode Available	1
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation	Sep 19, 2023	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Large Language Models Are Not Robust Multiple Choice Selectors	Sep 7, 2023	Computational EfficiencyMultiple-choice	CodeCode Available	1
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models	Sep 5, 2023	Code GenerationMultiple-choice	CodeCode Available	1
LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models	Aug 20, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models	Aug 18, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding	Aug 17, 2023	DiagnosticEgoSchema	CodeCode Available	1
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework	Jul 24, 2023	Contrastive LearningMultimodal Reasoning	CodeCode Available	1
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models	Jul 20, 2023	BenchmarkingLanguage Modeling	CodeCode Available	1
Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation	Jun 9, 2023	JurisprudenceManagement	CodeCode Available	1
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1
Conformal Prediction with Large Language Models for Multi-Choice Question Answering	May 28, 2023	Conformal PredictionMultiple-choice	CodeCode Available	1
NarrativeXL: A Large-scale Dataset For Long-Term Memory Models	May 23, 2023	Multiple-choiceReading Comprehension	CodeCode Available	1
VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models	May 20, 2023	Multiple-choiceQuestion Answering	CodeCode Available	1
M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models	May 17, 2023	Instruction FollowingMultiple-choice	CodeCode Available	1
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting	May 7, 2023	Multiple-choice	CodeCode Available	1
MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic	May 5, 2023	Epistemic ReasoningLanguage Modeling	CodeCode Available	1
Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams	Mar 29, 2023	Multiple-choice	CodeCode Available	1
Explicit Planning Helps Language Models in Logical Reasoning	Mar 28, 2023	Logical ReasoningMultiple-choice	CodeCode Available	1
Long Horizon Temperature Scaling	Feb 7, 2023	Multiple-choice	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 45Next →

No leaderboard results yet.