SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4371–4380 of 5548 papers

Title	Date	Tasks	Status	Hype
Yambda-5B -- A Large-Scale Multi-modal Dataset for Ranking And Retrieval	May 28, 2025	BenchmarkingRecommendation Systems	—Unverified	0
Yesil o1 Pro: Evidence-Based AI Model for Health and Benchmarking in Clinical Decision Support	Feb 15, 2025	BenchmarkingEpidemiology	—Unverified	0
Yet Another ADNI Machine Learning Paper? Paving The Way Towards Fully-reproducible Research on Classification of Alzheimer's Disease	Sep 21, 2017	BenchmarkingClassification	—Unverified	0
You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain	Jan 23, 2025	BenchmarkingDomain Adaptation	—Unverified	0
Zero-Forcing Max-Power Beamforming for Hybrid mmWave Full-Duplex MIMO Systems	Feb 29, 2020	Benchmarking	—Unverified	0
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models	Apr 1, 2025	Benchmarking	—Unverified	0
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified	0
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics	Nov 28, 2024	BenchmarkingDiversity	—Unverified	0
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	Oct 18, 2024	BenchmarkingFairness	—Unverified	0
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified	0

Show:10 25 50

← PrevPage 438 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified