Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 5548 papers

Title	Date	Tasks	Status
Benchmarking GPUs on SVBRDF Extractor Model	Oct 19, 2023	BenchmarkingGPU	—Unverified
Benchmarking GPU and TPU Performance with Graph Neural Networks	Oct 21, 2022	BenchmarkingGPU	—Unverified
Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset	Apr 16, 2024	BenchmarkingManagement	—Unverified
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies	Feb 27, 2024	BenchmarkingSystematic Generalization	—Unverified
Approaches for benchmarking single-cell gene regulatory network inference methods	Jul 17, 2023	Benchmarking	—Unverified
Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models	Jun 6, 2023	BenchmarkingEthics	—Unverified
Benchmarking GNNs Using Lightning Network Data	Jul 5, 2024	Benchmarking	—Unverified
Benchmarking global optimization techniques for unmanned aerial vehicle path planning	Jan 24, 2025	Benchmarkingglobal-optimization	—Unverified
Accented Speech Recognition: Benchmarking, Pre-training, and Diverse Data	May 16, 2022	Accented Speech RecognitionBenchmarking	—Unverified
Data-driven Approach for Static Hedging of Exchange Traded Options	Feb 1, 2023	BenchmarkingInterpretable Machine Learning	—Unverified
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming	Jun 14, 2024	BenchmarkingGeneral Knowledge	—Unverified
Applications in CityLearn Gym Environment for Multi-Objective Control Benchmarking in Grid-Interactive Buildings and Districts	Aug 27, 2024	BenchmarkingModel Predictive Control	—Unverified
AEON: Adaptive Estimation of Instance-Dependent In-Distribution and Out-of-Distribution Label Noise for Robust Learning	Jan 23, 2025	Benchmarkingimage-classification	—Unverified
Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory	Aug 24, 2024	BenchmarkingData Augmentation	—Unverified
Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs)	Jan 21, 2025	Benchmarking	—Unverified
Application of Machine Learning for Online Reputation Systems	Sep 10, 2022	BenchmarkingRecommendation Systems	—Unverified
Benchmarking General-Purpose In-Context Learning	May 27, 2024	BenchmarkingDecision Making	—Unverified
Application of DEA in International Market Selection for the export of products from Spain	Sep 10, 2021	BenchmarkingDecision Making	—Unverified
Data Augmentation for Traffic Classification	Jan 19, 2024	BenchmarkingClassification	—Unverified
Application Inference using Machine Learning based Side Channel Analysis	Jul 9, 2019	BenchmarkingBIG-bench Machine Learning	—Unverified
DarkBench: Benchmarking Dark Patterns in Large Language Models	Mar 13, 2025	Benchmarking	—Unverified
Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech	Jun 9, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Application based Evaluation of an Efficient Spike-Encoder, "Spiketrum"	May 24, 2024	BenchmarkingClassification	—Unverified
DASB -- Discrete Audio and Speech Benchmark	Jun 20, 2024	BenchmarkingEmotion Recognition	—Unverified
Benchmarking Foundation Models with Language-Model-as-an-Examiner	Jun 7, 2023	BenchmarkingLanguage Modeling	—Unverified
Applicability and Challenges of Deep Reinforcement Learning for Satellite Frequency Plan Design	Oct 15, 2020	BenchmarkingDecision Making	—Unverified
Apples to Apples: Learning Semantics of Common Entities Through a Novel Comprehension Task	Jul 1, 2017	BenchmarkingPart-Of-Speech Tagging	—Unverified
Benchmarking Foundation Models for Zero-Shot Biometric Tasks	May 30, 2025	AttributeBenchmarking	—Unverified
Benchmarking foundation models as feature extractors for weakly-supervised computational pathology	Aug 28, 2024	BenchmarkingDiversity	—Unverified
Advocating Character Error Rate for Multilingual ASR Evaluation	Oct 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Data Analysis in the Era of Generative AI	Sep 27, 2024	Benchmarking	—Unverified
Benchmarking for Public Health Surveillance tasks on Social Media with a Domain-Specific Pretrained Language Model	Apr 9, 2022	BenchmarkingLanguage Modeling	—Unverified
Benchmarking for Metaheuristic Black-Box Optimization: Perspectives and Open Challenges	Jul 1, 2020	BenchmarkingMetaheuristic Optimization	—Unverified
Adversarial Reinforcement Learning Framework for Benchmarking Collision Avoidance Mechanisms in Autonomous Vehicles	Jun 4, 2018	Autonomous NavigationAutonomous Vehicles	—Unverified
Benchmarking for Bayesian Reinforcement Learning	Sep 14, 2015	Benchmarkingreinforcement-learning	—Unverified
Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling	Oct 23, 2024	Benchmarking	—Unverified
A Platform for Event Extraction in Hindi	May 1, 2020	ArticlesBenchmarking	—Unverified
Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework	Jun 9, 2025	BenchmarkingFairness	—Unverified
Benchmarking fixed-length Fingerprint Representations across different Embedding Sizes and Sensor Types	Jul 17, 2023	Benchmarking	—Unverified
Benchmarking five global optimization approaches for nano-optical shape optimization and parameter reconstruction	Sep 18, 2018	Bayesian OptimizationBenchmarking	—Unverified
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes	May 22, 2025	BenchmarkingRAG	—Unverified
Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place Recognition and Localization	Feb 3, 2022	3D ReconstructionBenchmarking	—Unverified
Data and its (dis)contents: A survey of dataset development and use in machine learning research	Dec 9, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Data-driven inventory management for new products: An adjusted Dyna-Q approach with transfer learning	Jan 14, 2025	BenchmarkingManagement	—Unverified
Benchmarking federated strategies in Peer-to-Peer Federated learning for biomedical data	Feb 15, 2024	BenchmarkingFederated Learning	—Unverified
Benchmarking Federated Machine Unlearning methods for Tabular Data	Apr 1, 2025	BenchmarkingComputational Efficiency	—Unverified
A Pipeline for Post-Crisis Twitter Data Acquisition	Jan 17, 2018	Active LearningBenchmarking	—Unverified
Benchmarking FedAvg and FedCurv for Image Classification Tasks	Mar 31, 2023	BenchmarkingClassification	—Unverified
A Perspective on Neural Capacity Estimation: Viability and Reliability	Mar 22, 2022	BenchmarkingCapacity Estimation	—Unverified
Accelerating the discovery of steady-states of planetary interior dynamics with machine learning	Aug 30, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 31 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified