SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2731–2740 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
DarkBench: Benchmarking Dark Patterns in Large Language Models	Mar 13, 2025	Benchmarking	—Unverified	0	0
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization	Feb 3, 2022	3D ReconstructionBenchmarking	—Unverified	0	0
AnyTOD: A Programmable Task-Oriented Dialog System	Dec 20, 2022	BenchmarkingLanguage Modeling	—Unverified	0	0
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes	May 22, 2025	BenchmarkingRAG	—Unverified	0	0
DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Jul 1, 2022	Abstractive Text SummarizationArticles	—Unverified	0	0
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified	0	0
DACOS-A Manually Annotated Dataset of Code Smells	Mar 15, 2023	Benchmarking	—Unverified	0	0
Benchmarking Explanatory Models for Inertia Forecasting using Public Data of the Nordic Area	Jul 14, 2023	BenchmarkingTime Series	—Unverified	0	0
Anytime Bi-Objective Optimization with a Hybrid Multi-Objective CMA-ES (HMO-CMA-ES)	May 9, 2016	Benchmarking	—Unverified	0	0
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified	0	0

Show:10 25 50

← PrevPage 274 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified