SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2681–2690 of 5548 papers

Title	Date	Tasks	Status	Hype
TuringQ: Benchmarking AI Comprehension in Theory of Computation	Oct 9, 2024	Benchmarking	CodeCode Available	0
OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB	Oct 9, 2024	BenchmarkingDiversity	—Unverified	0
Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning	Oct 9, 2024	BenchmarkingFairness	CodeCode Available	0
InAttention: Linear Context Scaling for Transformers	Oct 9, 2024	BenchmarkingDecoder	—Unverified	0
Analysis of different disparity estimation techniques on aerial stereo image datasets	Oct 9, 2024	BenchmarkingDepth Estimation	—Unverified	0
HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding	Oct 9, 2024	BenchmarkingInstruction Following	—Unverified	0
M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes	Oct 9, 2024	BenchmarkingMotion Generation	—Unverified	0
Active Evaluation Acquisition for Efficient LLM Benchmarking	Oct 8, 2024	Benchmarking	—Unverified	0
Benchmarking of a new data splitting method on volcanic eruption data	Oct 8, 2024	Benchmarking	—Unverified	0
Manual Verbalizer Enrichment for Few-Shot Text Classification	Oct 8, 2024	BenchmarkingClassification	—Unverified	0

Show:10 25 50

← PrevPage 269 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified