Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 5548 papers

Title	Date	Tasks	Status
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools	Jan 1, 2025	Benchmarking	—Unverified
Comparative Benchmarking of Causal Discovery Techniques	Aug 18, 2017	BenchmarkingCausal Discovery	—Unverified
Benchmarking ASR Systems Based on Post-Editing Effort and Error Analysis	Jul 1, 2021	Benchmarking	—Unverified
Comparative Design Space Exploration of Dense and Semi-Dense SLAM	Sep 15, 2015	Benchmarking	—Unverified
Comparative evaluation of instrument segmentation and tracking methods in minimally invasive surgery	May 7, 2018	BenchmarkingSegmentation	—Unverified
CheXwhatsApp: A Dataset for Exploring Challenges in the Diagnosis of Chest X-rays through Mobile Devices	Jan 1, 2025	Benchmarking	—Unverified
LAraBench: Benchmarking Arabic AI with Large Language Models	May 24, 2023	BenchmarkingFew-Shot Learning	—Unverified
Comparing Computing Platforms for Deep Learning on a Humanoid Robot	Sep 11, 2018	BenchmarkingCPU	—Unverified
ChemTime: Rapid and Early Classification for Multivariate Time Series Classification of Chemical Sensors	Dec 15, 2023	BenchmarkingClassification	—Unverified
Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells	Mar 29, 2024	Benchmarking	—Unverified
An Empirical Study of Super-resolution on Low-resolution Micro-expression Recognition	Oct 16, 2023	BenchmarkingMicro Expression Recognition	—Unverified
Comparison and Benchmarking of AI Models and Frameworks on Mobile Devices	May 7, 2020	BenchmarkingDiversity	—Unverified
Comparison of feature extraction and dimensionality reduction methods for single channel extracellular spike sorting	Feb 10, 2016	BenchmarkingClustering	—Unverified
Comparison of tree-based ensemble algorithms for merging satellite and earth-observed precipitation data at the daily time scale	Dec 31, 2022	Benchmarkingregression	—Unverified
DSLOB: A Synthetic Limit Order Book Dataset for Benchmarking Forecasting Algorithms under Distributional Shift	Nov 17, 2022	BenchmarkingTime Series	—Unverified
CompBench: Benchmarking Complex Instruction-guided Image Editing	May 18, 2025	BenchmarkingInstruction Following	—Unverified
Dual Encoder-Decoder based Generative Adversarial Networks for Disentangled Facial Representation Learning	Sep 19, 2019	BenchmarkingDecoder	—Unverified
ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation Models	May 18, 2025	ArticlesBenchmarking	—Unverified
An Empirical Study of Benchmarking Chinese Aspect Sentiment Quad Prediction	Nov 3, 2023	BenchmarkingSentence	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
Complexity of Representations in Deep Learning	Sep 1, 2022	BenchmarkingDeep Learning	—Unverified
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition	Mar 23, 2022	BenchmarkingScene Text Detection	—Unverified
ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task	Apr 27, 2023	ArticlesBenchmarking	—Unverified
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics	Apr 21, 2022	AttributeBenchmarking	—Unverified
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics	Sep 17, 2021	AttributeBenchmarking	—Unverified
ChatGPT Alternative Solutions: Large Language Models Survey	Mar 21, 2024	BenchmarkingChatbot	—Unverified
Comprehensive Energy Footprint Benchmarking Algorithm for Electrified Powertrains	Jun 2, 2021	Benchmarkingenergy management	—Unverified
Comprehensive Energy Footprint Benchmarking of Strong Parallel Electrified Powertrain	Jun 1, 2021	Benchmarkingenergy management	—Unverified
Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data	Jul 17, 2024	ArticlesBenchmarking	—Unverified
Computational and Exploratory Landscape Analysis of the GKLS Generator	Apr 18, 2023	Benchmarkingglobal-optimization	—Unverified
An Empirical Study of Automated Mislabel Detection in Real World Vision Datasets	Dec 2, 2023	Benchmarking	—Unverified
Chart-to-Experience: Benchmarking Multimodal LLMs for Predicting Experiential Impact of Charts	May 23, 2025	Benchmarking	—Unverified
Computer-aided diagnosis and prediction in brain disorders	Jun 29, 2022	BenchmarkingDecision Making	—Unverified
Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art	Apr 18, 2017	Autonomous DrivingAutonomous Vehicles	—Unverified
DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World Domain Adaptation of Semantic Segmentation	Jan 30, 2021	BenchmarkingDomain Adaptation	—Unverified
ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair	Oct 25, 2023	BenchmarkingFault localization	—Unverified
A War Beyond Deepfake: Benchmarking Facial Counterfeits and Countermeasures	Nov 25, 2021	BenchmarkingDeepFake Detection	—Unverified
Conditionally Invariant Representation Learning for Disentangling Cellular Heterogeneity	Jul 2, 2023	BenchmarkingData Integration	—Unverified
Conditional Neural Processes for Molecules	Oct 17, 2022	Bayesian OptimizationBenchmarking	—Unverified
Benchmarking Decoupled Neural Interfaces with Synthetic Gradients	Dec 22, 2017	Benchmarking	—Unverified
CoNES: Convex Natural Evolutionary Strategies	Jul 16, 2020	BenchmarkingMuJoCo	—Unverified
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization	Feb 6, 2025	BenchmarkingUncertainty Quantification	—Unverified
Configurable 3D Scene Synthesis and 2D Image Rendering with Per-Pixel Ground Truth using Stochastic Grammars	Apr 1, 2017	BenchmarkingObject	—Unverified
Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation	Oct 16, 2024	BenchmarkingPanoptic Segmentation	—Unverified
Dual Task Framework for Improving Persona-grounded Dialogue Dataset	Feb 11, 2022	Benchmarking	—Unverified
Connecting convex energy-based inference and optimal transport for domain adaptation	Feb 26, 2021	BenchmarkingDomain Adaptation	—Unverified
Dynamic benchmarking framework for LLM-based conversational data capture	Feb 4, 2025	Benchmarking	—Unverified
CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization	Jan 22, 2025	Benchmarkingregression	—Unverified
Benchmarking deep generative models for diverse antibody sequence design	Nov 12, 2021	BenchmarkingDiversity	—Unverified
Characterizing Transactional Databases for Frequent Itemset Mining	Nov 9, 2020	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 37 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified