SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2051–2060 of 5548 papers

Title	Date	Tasks	Status	Hype
Assessing Foundation Models for Sea Ice Type Segmentation in Sentinel-1 SAR Imagery	Mar 28, 2025	BenchmarkingSegmentation	—Unverified	0
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition	Mar 27, 2025	Benchmarkingscientific discovery	—Unverified	0
Benchmarking Deep Learning-Based Methods for Irradiance Nowcasting with Sky Images	Mar 27, 2025	Benchmarking	—Unverified	0
CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?	Mar 27, 2025	BenchmarkingSpecificity	CodeCode Available	0
GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics	Mar 27, 2025	BenchmarkingNatural Language Queries	—Unverified	0
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance	Mar 27, 2025	BenchmarkingImage Generation	—Unverified	0
CSPO: Cross-Market Synergistic Stock Price Movement Forecasting with Pseudo-volatility Optimization	Mar 26, 2025	Benchmarking	—Unverified	0
Benchmarking and optimizing organism wide single-cell RNA alignment methods	Mar 26, 2025	BenchmarkingDecoder	CodeCode Available	0
Can geometric combinatorics improve RNA branching predictions?	Mar 26, 2025	Benchmarking	CodeCode Available	0
RxRx3-core: Benchmarking drug-target interactions in High-Content Microscopy	Mar 26, 2025	BenchmarkingRepresentation Learning	—Unverified	0

Show:10 25 50

← PrevPage 206 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified