SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3231–3240 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models	May 22, 2025	BenchmarkingDiagnostic	—Unverified	0	0
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified	0	0
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences	Aug 26, 2024	Benchmarking	—Unverified	0	0
Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection	May 8, 2025	BenchmarkingOut-of-Distribution Generalization	—Unverified	0	0
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks	Mar 19, 2025	BenchmarkingDomain Adaptation	—Unverified	0	0
L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi	Nov 21, 2022	BenchmarkingMachine Translation	—Unverified	0	0
L3 Fusion: Fast Transformed Convolutions on CPUs	Dec 4, 2019	Benchmarking	—Unverified	0	0
Advocating Character Error Rate for Multilingual ASR Evaluation	Oct 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0	0
Label Anchored Contrastive Learning for Language Understanding	Apr 26, 2022	BenchmarkingContrastive Learning	—Unverified	0	0
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified	0	0

Show:10 25 50

← PrevPage 324 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified