SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3910 of 5548 papers

Title	Date	Tasks	Status	Hype
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization	Nov 1, 2023	Benchmarkingreinforcement-learning	—Unverified	0
SDFR: Synthetic Data for Face Recognition Competition	Apr 6, 2024	BenchmarkingFace Recognition	—Unverified	0
Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection	May 10, 2023	BenchmarkingCommunity Detection	—Unverified	0
SE Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering	Feb 3, 2025	BenchmarkingCode Generation	—Unverified	0
SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification	Nov 9, 2023	BenchmarkingInstance Segmentation	—Unverified	0
SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification	Nov 18, 2022	BenchmarkingInstance Segmentation	—Unverified	0
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified	0
SecRepoBench: Benchmarking LLMs for Secure Code Generation in Real-World Repositories	Apr 29, 2025	BenchmarkingCode Generation	—Unverified	0
Secure Neuroimaging Analysis using Federated Learning with Homomorphic Encryption	Aug 7, 2021	BenchmarkingFederated Learning	—Unverified	0
Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions	Apr 16, 2025	BenchmarkingLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 391 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified