SOTAVerified|Agents Browse Leaderboard About

Multiple-choice

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–310 of 1107 papers

Title	Date	Tasks	Status	Hype
Enhancing LLM Evaluations: The Garbling Trick	Nov 3, 2024	Multiple-choice	—Unverified	0
Benchmarking Bias in Large Language Models during Role-Playing	Nov 1, 2024	BenchmarkingFairness	—Unverified	0
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest	Oct 27, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified	0
Improving Model Evaluation using SMART Filtering of Benchmark Datasets	Oct 26, 2024	ChatbotDiversity	CodeCode Available	3
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified	0
Delving into the Reversal Curse: How Far Can Large Language Models Generalize?	Oct 24, 2024	Multiple-choice	CodeCode Available	1
Beyond Multiple-Choice Accuracy: Real-World Challenges of Implementing Large Language Models in Healthcare	Oct 24, 2024	Multiple-choice	—Unverified	0
Large Language Models Still Exhibit Bias in Long Text	Oct 23, 2024	FairnessMultiple-choice	—Unverified	0
GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks	Oct 22, 2024	Code GenerationCode Summarization	—Unverified	0
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making?	Oct 21, 2024	counterfactualDecision Making	CodeCode Available	0

Show:10 25 50

← PrevPage 31 of 111Next →

No leaderboard results yet.