SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3221–3230 of 5548 papers

Title	Date	Tasks	Status	Hype
Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals	Jun 7, 2023	BenchmarkingMachine Reading Comprehension	CodeCode Available	0
Benchmarking Foundation Models with Language-Model-as-an-Examiner	Jun 7, 2023	BenchmarkingLanguage Modeling	—Unverified	0
Self-Adjusting Weighted Expected Improvement for Bayesian Optimization	Jun 7, 2023	Bayesian OptimizationBenchmarking	CodeCode Available	0
ICON^2: Reliably Benchmarking Predictive Inequity in Object Detection	Jun 7, 2023	AttributeAutonomous Driving	—Unverified	0
Benchmarking Robustness of AI-Enabled Multi-sensor Fusion Systems: Challenges and Opportunities	Jun 6, 2023	BenchmarkingDepth Completion	—Unverified	0
Explainable AI using expressive Boolean formulas	Jun 6, 2023	BenchmarkingExplainable Artificial Intelligence (XAI)	—Unverified	0
Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models	Jun 6, 2023	BenchmarkingEthics	—Unverified	0
Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging	Jun 6, 2023	BenchmarkingSentence	—Unverified	0
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning	Jun 5, 2023	Benchmarking	CodeCode Available	3
Str2Str: A Score-based Framework for Zero-shot Protein Conformation Sampling	Jun 5, 2023	BenchmarkingDenoising	CodeCode Available	1

Show:10 25 50

← PrevPage 323 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified