SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3910 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
Benchmarking bias: Expanding clinical AI model card to incorporate bias reporting of social and non-social factors	Nov 21, 2023	Benchmarking	—Unverified	0	0
Benchmarking Bayesian Deep Learning on Diabetic Retinopathy Detection Tasks	Nov 23, 2022	BenchmarkingDeep Learning	—Unverified	0	0
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection	Jul 28, 2024	BenchmarkingFake News Detection	—Unverified	0	0
Off-policy Evaluation for Payments at Adyen	Jan 15, 2025	BenchmarkingDecision Making	—Unverified	0	0
Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation	Jul 11, 2023	BenchmarkingCausal Discovery	—Unverified	0	0
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications	May 20, 2025	BenchmarkingMachine Translation	—Unverified	0	0
OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics	Jun 12, 2025	Benchmarking	—Unverified	0	0
IBB Traffic Graph Data: Benchmarking and Road Traffic Prediction Model	Aug 2, 2024	BenchmarkingFeature Engineering	—Unverified	0	0
Benchmarking Azerbaijani Neural Machine Translation	Jul 29, 2022	BenchmarkingDomain Generalization	—Unverified	0	0
Benchmarking a wide range of optimisers for solving the Fermi-Hubbard model using the variational quantum eigensolver	Nov 20, 2024	Benchmarking	—Unverified	0	0

Show:10 25 50

← PrevPage 391 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified