SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4681–4690 of 5548 papers

Title	Date	Tasks	Status	Hype
Robust Benchmarking for Machine Learning of Clinical Entity Extraction	Jul 31, 2020	BenchmarkingBIG-bench Machine Learning	CodeCode Available	0
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks	Jun 6, 2025	Benchmarking	CodeCode Available	0
Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning	Jun 11, 2024	BenchmarkingContrastive Learning	CodeCode Available	0
A Wild Bootstrap for Degenerate Kernel Tests	Aug 23, 2014	BenchmarkingTime Series	CodeCode Available	0
Harnessing Orthogonality to Train Low-Rank Neural Networks	Jan 16, 2024	Benchmarking	CodeCode Available	0
Aux-Drop: Handling Haphazard Inputs in Online Learning Using Auxiliary Dropouts	Mar 9, 2023	Benchmarking	CodeCode Available	0
Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias	Dec 20, 2022	Benchmarking	CodeCode Available	0
Benchmarking Unsupervised Strategies for Anomaly Detection in Multivariate Time Series	Jun 25, 2025	Anomaly DetectionBenchmarking	CodeCode Available	0
Harmonization Benchmarking Tool for Neuroimaging Datasets	Nov 15, 2022	BenchmarkingDiffusion MRI	CodeCode Available	0
Adaptive Shrinkage Estimation For Personalized Deep Kernel Regression In Modeling Brain Trajectories	Apr 10, 2025	Additive modelsBenchmarking	CodeCode Available	0

Show:10 25 50

← PrevPage 469 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified