SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4021–4030 of 5548 papers

Title	Date	Tasks	Status	Hype
Statistical Multicriteria Benchmarking via the GSD-Front	Jun 6, 2024	Benchmarking	—Unverified	0
Statistical Scenario Modelling and Lookalike Distributions for Multi-Variate AI Risk	Feb 20, 2025	Benchmarking	—Unverified	0
StEduCov: An Explored and Benchmarked Dataset on Stance Detection in Tweets towards Online Education during COVID-19 Pandemic	Aug 22, 2022	BenchmarkingStance Detection	—Unverified	0
Steerable Pyramid Weighted Loss: Multi-Scale Adaptive Weighting for Semantic Segmentation	Mar 9, 2025	Autonomous DrivingBenchmarking	—Unverified	0
STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models	Feb 18, 2025	BenchmarkingLarge Language Model	—Unverified	0
Stochastic Spiking Neural Networks with First-to-Spike Coding	Apr 26, 2024	Benchmarking	—Unverified	0
Stratify: Unifying Multi-Step Forecasting Strategies	Dec 29, 2024	Benchmarking	—Unverified	0
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs	May 26, 2025	Benchmarking	—Unverified	0
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs	Dec 23, 2024	BenchmarkingLogical Reasoning	—Unverified	0
Structural Property Prediction	Jul 5, 2023	BenchmarkingPrediction	—Unverified	0

Show:10 25 50

← PrevPage 403 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified