SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3581–3590 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
Benchmarking Inference Performance of Deep Learning Models on Analog Devices	Nov 24, 2020	BenchmarkingDeep Learning	—Unverified	0	0
MHQA: A Diverse, Knowledge Intensive Mental Health Question Answering Challenge for Language Models	Feb 21, 2025	BenchmarkingDiagnostic	—Unverified	0	0
MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation	Mar 29, 2025	Answer GenerationBenchmarking	—Unverified	0	0
Benchmarking Individual Tree Mapping with Sub-meter Imagery	Nov 14, 2023	BenchmarkingSegmentation	—Unverified	0	0
Microtask crowdsourcing for disease mention annotation in PubMed abstracts	Aug 8, 2014	Benchmarking	—Unverified	0	0
Microvasculature Segmentation in Human BioMolecular Atlas Program (HuBMAP)	Aug 6, 2023	BenchmarkingImage Segmentation	—Unverified	0	0
Benchmarking Image Transformers for Prostate Cancer Detection from Ultrasound Data	Mar 27, 2024	BenchmarkingCancer Classification	—Unverified	0	0
Benchmarking Image Sensors Under Adverse Weather Conditions for Autonomous Driving	Dec 6, 2019	Autonomous DrivingBenchmarking	—Unverified	0	0
MileBench: Benchmarking MLLMs in Long Context	Apr 29, 2024	BenchmarkingDiagnostic	—Unverified	0	0
Addressing the Real-world Class Imbalance Problem in Dermatology	Oct 9, 2020	BenchmarkingFew-Shot Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 359 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified