SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3041–3050 of 5548 papers

Title	Date	Tasks	Status	Hype
A Survey on Model Compression for Large Language Models	Aug 15, 2023	BenchmarkingKnowledge Distillation	—Unverified	0
Benchmarking Scalable Epistemic Uncertainty Quantification in Organ Segmentation	Aug 15, 2023	BenchmarkingMedical Image Analysis	CodeCode Available	0
Benchmarking Generated Poses: How Rational is Structure-based Drug Design with Generative Models?	Aug 14, 2023	BenchmarkingDrug Design	CodeCode Available	1
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents	Aug 11, 2023	BenchmarkingDecision Making	CodeCode Available	2
Does AI for science need another ImageNet Or totally different benchmarks? A case study of machine learning force fields	Aug 11, 2023	Benchmarking	—Unverified	0
DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity	Aug 11, 2023	BenchmarkingDiversity	CodeCode Available	1
A Comparative Visual Analytics Framework for Evaluating Evolutionary Processes in Multi-objective Optimization	Aug 10, 2023	BenchmarkingDecision Making	CodeCode Available	1
Spintronics for image recognition: performance benchmarking via ultrafast data-driven simulations	Aug 10, 2023	BenchmarkingClassification	—Unverified	0
Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human Evaluation	Aug 10, 2023	AttributeBenchmarking	—Unverified	0
Enhancing Architecture Frameworks by Including Modern Stakeholders and their Views/Viewpoints	Aug 9, 2023	Benchmarking	—Unverified	0

Show:10 25 50

← PrevPage 305 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified