SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2661–2670 of 5548 papers

Title	Date	Tasks	Status	Hype
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models	Dec 15, 2023	BenchmarkingCode Summarization	CodeCode Available	1
SPEAL: Skeletal Prior Embedded Attention Learning for Cross-Source Point Cloud Registration	Dec 14, 2023	BenchmarkingPoint Cloud Registration	—Unverified	0
Efficiently Quantifying Individual Agent Importance in Cooperative MARL	Dec 13, 2023	BenchmarkingMulti-agent Reinforcement Learning	—Unverified	0
EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms with Real-captured Hybrid Dataset	Dec 13, 2023	BenchmarkingDeblurring	—Unverified	0
Watchog: A Light-weight Contrastive Learning based Framework for Column Annotation	Dec 12, 2023	BenchmarkingColumns Property Annotation	—Unverified	0
Benchmarking Deep Learning Classifiers for SAR Automatic Target Recognition	Dec 12, 2023	BenchmarkingDeep Learning	—Unverified	0
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation	Dec 12, 2023	Anomaly DetectionAutonomous Driving	CodeCode Available	1
Meta-survey on outlier and anomaly detection	Dec 12, 2023	Anomaly DetectionBenchmarking	CodeCode Available	0
Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images	Dec 12, 2023	BenchmarkingRetrieval	—Unverified	0
EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning	Dec 11, 2023	BenchmarkingHuman-Object Interaction Detection	CodeCode Available	1

Show:10 25 50

← PrevPage 267 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified