Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2726–2750 of 5548 papers

Title	Date	Tasks	Status
Data Analysis in the Era of Generative AI	Sep 27, 2024	Benchmarking	—Unverified
Benchmarking Feature Extractors for Reinforcement Learning-Based Semiconductor Defect Localization	Nov 18, 2023	BenchmarkingDeep Reinforcement Learning	—Unverified
A Parallel Corpus for Evaluating Machine Translation between Arabic and European Languages	Apr 1, 2017	BenchmarkingMachine Translation	—Unverified
Accelerating the discovery of steady-states of planetary interior dynamics with machine learning	Aug 30, 2024	Benchmarking	—Unverified
DASB -- Discrete Audio and Speech Benchmark	Jun 20, 2024	BenchmarkingEmotion Recognition	—Unverified
DarkBench: Benchmarking Dark Patterns in Large Language Models	Mar 13, 2025	Benchmarking	—Unverified
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization	Feb 3, 2022	3D ReconstructionBenchmarking	—Unverified
AnyTOD: A Programmable Task-Oriented Dialog System	Dec 20, 2022	BenchmarkingLanguage Modeling	—Unverified
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes	May 22, 2025	BenchmarkingRAG	—Unverified
DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Jul 1, 2022	Abstractive Text SummarizationArticles	—Unverified
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified
DACOS-A Manually Annotated Dataset of Code Smells	Mar 15, 2023	Benchmarking	—Unverified
Benchmarking Explanatory Models for Inertia Forecasting using Public Data of the Nordic Area	Jul 14, 2023	BenchmarkingTime Series	—Unverified
Anytime Bi-Objective Optimization with a Hybrid Multi-Objective CMA-ES (HMO-CMA-ES)	May 9, 2016	Benchmarking	—Unverified
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified
CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx	Jun 5, 2025	2D Pose EstimationBenchmarking	—Unverified
Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks	Dec 21, 2023	BenchmarkingCommunity Detection	—Unverified
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset	Oct 1, 2024	BenchmarkingContrastive Learning	—Unverified
Benchmarking Evolutionary Algorithms For Single Objective Real-valued Constrained Optimization - A Critical Review	Jun 12, 2018	BenchmarkingEvolutionary Algorithms	—Unverified
Anytime Behavior of Inexact TSP Solvers and Perspectives for Automated Algorithm Selection	May 27, 2020	BenchmarkingCombinatorial Optimization	—Unverified
Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition	Nov 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking Ethical and Safety Risks of Healthcare LLMs in China-Toward Systemic Governance under Healthy China 2030	May 12, 2025	BenchmarkingEthics	—Unverified
Labelling Vertebrae with 2D Reformations of Multidetector CT Images: An Adversarial Approach for Incorporating Prior Knowledge of Spine Anatomy	Feb 6, 2019	AnatomyBenchmarking	—Unverified
Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries	Apr 2, 2025	BenchmarkingComputational Efficiency	—Unverified
GradEscape: A Gradient-Based Evader Against AI-Generated Text Detectors	Jun 9, 2025	BenchmarkingModel extraction	—Unverified

Show:10 25 50

← PrevPage 110 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified