SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2481–2490 of 5548 papers

Title	Date	Tasks	Status	Hype
MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects	Dec 6, 2024	2kAnomaly Detection	—Unverified	0
An Experimental Evaluation of Imputation Models for Spatial-Temporal Traffic Data	Dec 6, 2024	BenchmarkingImputation	CodeCode Available	0
Learning Hidden Physics and System Parameters with Deep Operator Networks	Dec 6, 2024	BenchmarkingUncertainty Quantification	—Unverified	0
ACT-Bench: Towards Action Controllable World Models for Autonomous Driving	Dec 6, 2024	Autonomous DrivingBenchmarking	—Unverified	0
MozzaVID: Mozzarella Volumetric Image Dataset	Dec 6, 2024	BenchmarkingComputed Tomography (CT)	—Unverified	0
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models	Dec 6, 2024	BenchmarkingDialogue Understanding	—Unverified	0
Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy	Dec 5, 2024	BenchmarkingDecoder	—Unverified	0
From Code to Play: Benchmarking Program Search for Games Using Large Language Models	Dec 5, 2024	Atari GamesBenchmarking	—Unverified	0
Magnetic Resonance Imaging Feature-Based Subtyping and Model Ensemble for Enhanced Brain Tumor Segmentation	Dec 5, 2024	BenchmarkingBrain Tumor Segmentation	CodeCode Available	0
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified	0

Show:10 25 50

← PrevPage 249 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified