SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3861–3870 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models	Mar 18, 2023	Adversarial AttackBenchmarking	—Unverified	0	0
Noisy intermediate-scale quantum (NISQ) algorithms	Jan 21, 2021	BenchmarkingCombinatorial Optimization	—Unverified	0	0
Trajectory Normalized Gradients for Distributed Optimization	Jan 24, 2019	BenchmarkingDistributed Optimization	—Unverified	0	0
ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities	Oct 4, 2024	Benchmarkingcounterfactual	—Unverified	0	0
InferBench: Understanding Deep Learning Inference Serving with an Automatic Benchmarking System	Nov 4, 2020	Benchmarking	—Unverified	0	0
Non-Contextual Modeling of Sarcasm using a Neural Network Benchmark	Nov 20, 2017	BenchmarkingSentiment Analysis	—Unverified	0	0
Non-Reference Quality Assessment for Medical Imaging: Application to Synthetic Brain MRIs	Jul 20, 2024	BenchmarkingDomain Adaptation	—Unverified	0	0
Nonstochastic Bandits with Infinitely Many Experts	Feb 9, 2021	BenchmarkingMeta-Learning	—Unverified	0	0
TRAM: Benchmarking Temporal Reasoning for Large Language Models	Oct 2, 2023	BenchmarkingFew-Shot Learning	—Unverified	0	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0	0

Show:10 25 50

← PrevPage 387 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified