Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2750 of 5548 papers

Title	Date	Tasks	Status
DB3V: A Dialect Dominated Dataset of Bird Vocalisation for Cross-corpus Bird Species Recognition	Jun 11, 2024	BenchmarkingCross-corpus	—Unverified
Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling	Oct 23, 2024	Benchmarking	—Unverified
Dataset and Benchmarking of Real-Time Embedded Object Detection for RoboCup SSL	Jun 28, 2021	BenchmarkingObject	—Unverified
Benchmarking fixed-length Fingerprint Representations across different Embedding Sizes and Sensor Types	Jul 17, 2023	Benchmarking	—Unverified
Benchmarking five global optimization approaches for nano-optical shape optimization and parameter reconstruction	Sep 18, 2018	Bayesian OptimizationBenchmarking	—Unverified
A Platform for Event Extraction in Hindi	May 1, 2020	ArticlesBenchmarking	—Unverified
Adversarial Reinforcement Learning Framework for Benchmarking Collision Avoidance Mechanisms in Autonomous Vehicles	Jun 4, 2018	Autonomous NavigationAutonomous Vehicles	—Unverified
Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework	Jun 9, 2025	BenchmarkingFairness	—Unverified
Multi-scale data reconstruction of turbulent rotating flows with Gappy POD, Extended POD and Generative Adversarial Networks	Oct 21, 2022	BenchmarkingGenerative Adversarial Network	—Unverified
Data needs and challenges for quantum dot devices automation	Dec 21, 2023	Benchmarking	—Unverified
Benchmarking federated strategies in Peer-to-Peer Federated learning for biomedical data	Feb 15, 2024	BenchmarkingFederated Learning	—Unverified
Data-Driven Target Localization: Benchmarking Gradient Descent Using the Cramer-Rao Bound	Jan 20, 2024	Benchmarking	—Unverified
Data-driven surrogate modelling and benchmarking for process equipment	Mar 13, 2020	Active LearningBenchmarking	—Unverified
Data-driven Power Flow Linearization: Simulation	Jun 10, 2024	BenchmarkingComputational Efficiency	—Unverified
Benchmarking Federated Machine Unlearning methods for Tabular Data	Apr 1, 2025	BenchmarkingComputational Efficiency	—Unverified
A Pipeline for Post-Crisis Twitter Data Acquisition	Jan 17, 2018	Active LearningBenchmarking	—Unverified
Data-driven inventory management for new products: An adjusted Dyna-Q approach with transfer learning	Jan 14, 2025	BenchmarkingManagement	—Unverified
Benchmarking FedAvg and FedCurv for Image Classification Tasks	Mar 31, 2023	BenchmarkingClassification	—Unverified
Data-driven Approach for Static Hedging of Exchange Traded Options	Feb 1, 2023	BenchmarkingInterpretable Machine Learning	—Unverified
Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset	Apr 16, 2024	BenchmarkingManagement	—Unverified
A Perspective on Neural Capacity Estimation: Viability and Reliability	Mar 22, 2022	BenchmarkingCapacity Estimation	—Unverified
Data Augmentation for Traffic Classification	Jan 19, 2024	BenchmarkingClassification	—Unverified
Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory	Aug 24, 2024	BenchmarkingData Augmentation	—Unverified
Benchmarking features from different radiomics toolkits / toolboxes using Image Biomarkers Standardization Initiative	Jun 23, 2020	Benchmarking	—Unverified
Data and its (dis)contents: A survey of dataset development and use in machine learning research	Dec 9, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Data Analysis in the Era of Generative AI	Sep 27, 2024	Benchmarking	—Unverified
Benchmarking Feature Extractors for Reinforcement Learning-Based Semiconductor Defect Localization	Nov 18, 2023	BenchmarkingDeep Reinforcement Learning	—Unverified
A Parallel Corpus for Evaluating Machine Translation between Arabic and European Languages	Apr 1, 2017	BenchmarkingMachine Translation	—Unverified
Accelerating the discovery of steady-states of planetary interior dynamics with machine learning	Aug 30, 2024	Benchmarking	—Unverified
DASB -- Discrete Audio and Speech Benchmark	Jun 20, 2024	BenchmarkingEmotion Recognition	—Unverified
DarkBench: Benchmarking Dark Patterns in Large Language Models	Mar 13, 2025	Benchmarking	—Unverified
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization	Feb 3, 2022	3D ReconstructionBenchmarking	—Unverified
AnyTOD: A Programmable Task-Oriented Dialog System	Dec 20, 2022	BenchmarkingLanguage Modeling	—Unverified
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes	May 22, 2025	BenchmarkingRAG	—Unverified
DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Jul 1, 2022	Abstractive Text SummarizationArticles	—Unverified
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified
DACOS-A Manually Annotated Dataset of Code Smells	Mar 15, 2023	Benchmarking	—Unverified
Benchmarking Explanatory Models for Inertia Forecasting using Public Data of the Nordic Area	Jul 14, 2023	BenchmarkingTime Series	—Unverified
Anytime Bi-Objective Optimization with a Hybrid Multi-Objective CMA-ES (HMO-CMA-ES)	May 9, 2016	Benchmarking	—Unverified
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified
CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx	Jun 5, 2025	2D Pose EstimationBenchmarking	—Unverified
Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks	Dec 21, 2023	BenchmarkingCommunity Detection	—Unverified
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset	Oct 1, 2024	BenchmarkingContrastive Learning	—Unverified
Benchmarking Evolutionary Algorithms For Single Objective Real-valued Constrained Optimization - A Critical Review	Jun 12, 2018	BenchmarkingEvolutionary Algorithms	—Unverified
Anytime Behavior of Inexact TSP Solvers and Perspectives for Automated Algorithm Selection	May 27, 2020	BenchmarkingCombinatorial Optimization	—Unverified
Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition	Nov 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking Ethical and Safety Risks of Healthcare LLMs in China-Toward Systemic Governance under Healthy China 2030	May 12, 2025	BenchmarkingEthics	—Unverified
Labelling Vertebrae with 2D Reformations of Multidetector CT Images: An Adversarial Approach for Incorporating Prior Knowledge of Spine Anatomy	Feb 6, 2019	AnatomyBenchmarking	—Unverified
Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries	Apr 2, 2025	BenchmarkingComputational Efficiency	—Unverified
GradEscape: A Gradient-Based Evader Against AI-Generated Text Detectors	Jun 9, 2025	BenchmarkingModel extraction	—Unverified

Show:10 25 50

← PrevPage 55 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified