SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1151–1160 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
Geoclidean: Few-Shot Generalization in Euclidean Geometry	Nov 30, 2022	Benchmarking	CodeCode Available	1	5
Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning	Nov 8, 2021	Adversarial RobustnessBenchmarking	CodeCode Available	1	5
A Comparative Attention Framework for Better Few-Shot Object Detection on Aerial Images	Oct 25, 2022	BenchmarkingFew-Shot Object Detection	CodeCode Available	1	5
Benchmarks for Deep Off-Policy Evaluation	Mar 30, 2021	Benchmarkingcontinuous-control	CodeCode Available	1	5
HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis	Feb 13, 2021	BenchmarkingClustering	CodeCode Available	1	5
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data	Feb 27, 2024	Benchmarking	CodeCode Available	1	5
GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning	Feb 3, 2024	BenchmarkingDeepFake Detection	CodeCode Available	1	5
A Closer Look at Mortality Risk Prediction from Electrocardiograms	Jun 24, 2024	BenchmarkingPrediction	CodeCode Available	1	5
Benchmarking MRI Reconstruction Neural Networks on Large Public Datasets	Mar 6, 2020	BenchmarkingImage Reconstruction	CodeCode Available	1	5
Benchmarking Large Language Models for News Summarization	Jan 31, 2023	BenchmarkingNews Summarization	CodeCode Available	1	5

Show:10 25 50

← PrevPage 116 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified