SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3021–3030 of 5548 papers

Title	Date	Tasks	Status	Hype
Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads	Aug 28, 2023	BenchmarkingSelf-Supervised Learning	—Unverified	0
MLLM-DataEngine: An Iterative Refinement Approach for MLLM	Aug 25, 2023	Benchmarking	CodeCode Available	1
Benchmarking Data Efficiency and Computational Efficiency of Temporal Action Localization Models	Aug 24, 2023	Action LocalizationBenchmarking	—Unverified	0
Beyond Document Page Classification: Design, Datasets, and Challenges	Aug 24, 2023	BenchmarkingClassification	CodeCode Available	0
Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations	Aug 23, 2023	BenchmarkingDecoder	CodeCode Available	2
Benchmarking Causal Study to Interpret Large Language Models for Source Code	Aug 23, 2023	BenchmarkingCausal Inference	—Unverified	0
Finding the Perfect Fit: Applying Regression Models to ClimateBench v1.0	Aug 23, 2023	Benchmarkingregression	CodeCode Available	0
LLMRec: Benchmarking Large Language Models on Recommendation Task	Aug 23, 2023	BenchmarkingExplanation Generation	CodeCode Available	1
Efficient Benchmarking of Language Models	Aug 22, 2023	BenchmarkingGPU	—Unverified	0
Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection	Aug 22, 2023	BenchmarkingOut-of-Distribution Detection	CodeCode Available	0

Show:10 25 50

← PrevPage 303 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified