SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2710 of 5548 papers

Title	Date	Tasks	Status	Hype
Benchmarking Multi-Domain Active Learning on Image Classification	Dec 1, 2023	Active LearningAll	—Unverified	0
Benchmarking and Enhancing Disentanglement in Concept-Residual Models	Nov 30, 2023	BenchmarkingDisentanglement	—Unverified	0
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval	Nov 30, 2023	BenchmarkingRetrieval	—Unverified	0
Event-based Continuous Color Video Decompression from Single Frames	Nov 30, 2023	Benchmarking	—Unverified	0
Enhancing Ligand Pose Sampling for Molecular Docking	Nov 30, 2023	BenchmarkingMolecular Docking	CodeCode Available	1
LucidDreaming: Controllable Object-Centric 3D Generation	Nov 30, 2023	3D GenerationBenchmarking	—Unverified	0
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation	Nov 30, 2023	Benchmarkingcounterfactual	CodeCode Available	1
Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction	Nov 30, 2023	Benchmarkingregression	—Unverified	0
TaskBench: Benchmarking Large Language Models for Task Automation	Nov 30, 2023	BenchmarkingParameter Prediction	CodeCode Available	6

Show:10 25 50

← PrevPage 271 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified