SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1671–1680 of 5548 papers

Title	Date	Tasks	Status	Hype
Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture	Sep 3, 2024	BenchmarkingRAG	—Unverified	0
A Distance Oriented Kalman Filter Particle Swarm Optimizer Applied to Multi-Modality Image Registration	Mar 20, 2018	BenchmarkingImage Registration	—Unverified	0
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems	May 16, 2025	BenchmarkingMixture-of-Experts	—Unverified	0
Determinants of Performance in European ATM -- How to Analyze a Diverse Industry	Feb 20, 2023	BenchmarkingManagement	—Unverified	0
DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning	Jun 15, 2023	BenchmarkingConversational Question Answering	—Unverified	0
Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data Augmentation and Deep Ensemble Learning	Jun 2, 2021	BenchmarkingData Augmentation	—Unverified	0
Benchmarking Clinical Decision Support Search	Jan 29, 2018	ArticlesBenchmarking	—Unverified	0
Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models	Feb 17, 2025	Benchmarking	—Unverified	0
DeepSIC: Deep Semantic Image Compression	Jan 29, 2018	BenchmarkingImage Compression	—Unverified	0
Benchmarking Classical, Deep, and Generative Models for Human Activity Recognition	Jan 14, 2025	Activity RecognitionBenchmarking	—Unverified	0

Show:10 25 50

← PrevPage 168 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified