SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3501–3510 of 5548 papers

Title	Date	Tasks	Status	Hype
NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction	May 21, 2025	BenchmarkingHallucination	—Unverified	0
Next-generation MRD assays: do we have the tools to evaluate them properly?	Oct 31, 2023	BenchmarkingSensitivity	—Unverified	0
NL2KQL: From Natural Language to Kusto Query	Apr 3, 2024	BenchmarkingNatural Language Queries	—Unverified	0
Benchmarking and Building Zero-Shot Hindi Retrieval Model with Hindi-BEIR and NLLB-E5	Sep 9, 2024	BenchmarkingInformation Retrieval	—Unverified	0
NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems	Mar 7, 2024	BenchmarkingDependency Parsing	—Unverified	0
No Dataset Needed for Downstream Knowledge Benchmarking: Response Dispersion Inversely Correlates with Accuracy on Domain-specific QA	Aug 24, 2024	BenchmarkingChatbot	—Unverified	0
NODDI-SH: a computational efficient NODDI extension for fODF estimation in diffusion MRI	Aug 28, 2017	BenchmarkingDiffusion MRI	—Unverified	0
Node Classification Meets Link Prediction on Knowledge Graphs	Jun 14, 2021	BenchmarkingClassification	—Unverified	0
Nodule detection and generation on chest X-rays: NODE21 Challenge	Jan 4, 2024	Benchmarking	—Unverified	0
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries	Dec 14, 2024	BenchmarkingEmbodied Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 351 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified