SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3271–3280 of 5548 papers

Title	Date	Tasks	Status	Hype
Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts	May 25, 2023	Benchmarkingobject-detection	CodeCode Available	0
CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset	May 25, 2023	BenchmarkingText to SQL	CodeCode Available	0
KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration	May 25, 2023	BenchmarkingFace Recognition	CodeCode Available	1
Analysis of modular CMA-ES on strict box-constrained problems in the SBOX-COST benchmarking suite	May 24, 2023	Benchmarking	—Unverified	0
Barkour: Benchmarking Animal-level Agility with Quadruped Robots	May 24, 2023	BenchmarkingNavigate	—Unverified	0
GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking	May 24, 2023	BenchmarkingGraph Mining	CodeCode Available	0
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer	May 24, 2023	BenchmarkingCross-Lingual Transfer	—Unverified	0
LAraBench: Benchmarking Arabic AI with Large Language Models	May 24, 2023	BenchmarkingFew-Shot Learning	—Unverified	0
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction	May 23, 2023	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available	0
ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment	May 23, 2023	BenchmarkingCross-Lingual Transfer	CodeCode Available	1

Show:10 25 50

← PrevPage 328 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified