Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5051–5100 of 5548 papers

Title	Date	Tasks	Status
DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models	Jun 5, 2025	BenchmarkingDiversity	—Unverified
DiPCo -- Dinner Party Corpus	Sep 30, 2019	Benchmarking	—Unverified
DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning	Jun 15, 2023	BenchmarkingConversational Question Answering	—Unverified
Disability prediction in multiple sclerosis using performance outcome measures and demographic data	Apr 8, 2022	BenchmarkingBIG-bench Machine Learning	—Unverified
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey	May 18, 2025	BenchmarkingConversational Question Answering	—Unverified
DISC: a Dataset for Integrated Sensing and Communication in mmWave Systems	Jun 15, 2023	Activity RecognitionBenchmarking	—Unverified
DISCOMAN: Dataset of Indoor SCenes for Odometry, Mapping And Navigation	Sep 26, 2019	BenchmarkingPanoptic Segmentation	—Unverified
Discosuite - A parser test suite for German discontinuous structures	May 1, 2014	BenchmarkingConstituency Parsing	—Unverified
Discovering Visual Concept Structure with Sparse and Incomplete Tags	May 30, 2017	BenchmarkingClustering	—Unverified
CompBench: Benchmarking Complex Instruction-guided Image Editing	May 18, 2025	BenchmarkingInstruction Following	—Unverified
Discriminating modelling approaches for Point in Time Economic Scenario Generation	Aug 19, 2021	Benchmarking	—Unverified
Discriminative Link Prediction using Local Links, Node Features and Community Structure	Oct 17, 2013	BenchmarkingClustering	—Unverified
Comparison of tree-based ensemble algorithms for merging satellite and earth-observed precipitation data at the daily time scale	Dec 31, 2022	Benchmarkingregression	—Unverified
Disentangling coincident cell events using deep transfer learning and compressive sensing	Jul 17, 2025	BenchmarkingCompressive Sensing	—Unverified
DISL: Fueling Research with A Large Dataset of Solidity Smart Contracts	Mar 25, 2024	Benchmarking	—Unverified
ALT: A Python Package for Lightweight Feature Representation in Time Series Classification	Apr 17, 2025	BenchmarkingTime Series	—Unverified
Survey of HPC in US Research Institutions	Jun 23, 2025	BenchmarkingGPU	—Unverified
DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation Extraction	Sep 17, 2021	BenchmarkingRelation	—Unverified
Alpha Excel Benchmark	May 7, 2025	Benchmarking	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
Distortion-adaptive Salient Object Detection in 360^ Omnidirectional Images	Sep 11, 2019	Benchmarkingobject-detection	—Unverified
Distributed Evolution Strategies with Multi-Level Learning for Large-Scale Black-Box Optimization	Oct 9, 2023	Benchmarking	—Unverified
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified
Distributed Software-Defined Network Architecture for Smart Grid Resilience to Denial-of-Service Attacks	Dec 20, 2022	Benchmarking	—Unverified
Distributed Training Large-Scale Deep Architectures	Aug 10, 2017	BenchmarkingDeep Learning	—Unverified
ALP: Action-Aware Embodied Learning for Perception	Jun 16, 2023	Benchmarkingobject-detection	—Unverified
SUTD-PRCM Dataset and Neural Architecture Search Approach for Complex Metasurface Design	Feb 24, 2022	Benchmarkingimage-classification	—Unverified
Distribution-Based Invariant Deep Networks for Learning Meta-Features	Jun 24, 2020	BenchmarkingGeneral Classification	—Unverified
Sensitivity analysis and experimental evaluation of PID-like continuous sliding mode control	Aug 13, 2022	BenchmarkingSensitivity	—Unverified
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation	Jun 3, 2025	BenchmarkingStyle Transfer	—Unverified
Diverse Community Data for Benchmarking Data Privacy Algorithms	Jun 20, 2023	Benchmarking	—Unverified
Comparison of feature extraction and dimensionality reduction methods for single channel extracellular spike sorting	Feb 10, 2016	BenchmarkingClustering	—Unverified
SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation	Jan 1, 2025	BenchmarkingDiagnostic	—Unverified
Comparison and Benchmarking of AI Models and Frameworks on Mobile Devices	May 7, 2020	BenchmarkingDiversity	—Unverified
DLBricks: Composable Benchmark Generation to Reduce Deep Learning Benchmarking Effort on CPUs (Extended)	Nov 18, 2019	BenchmarkingCPU	—Unverified
DLUE: Benchmarking Document Language Understanding	May 16, 2023	BenchmarkingDocument Classification	—Unverified
Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells	Mar 29, 2024	Benchmarking	—Unverified
DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs	Mar 20, 2025	BenchmarkingHallucination	—Unverified
Comparing Foundation Models using Data Kernels	May 9, 2023	BenchmarkingSelf-Supervised Learning	—Unverified
A Sober Look at the Robustness of CLIPs to Spurious Features	Mar 18, 2024	Benchmarking	—Unverified
Comparing Computing Platforms for Deep Learning on a Humanoid Robot	Sep 11, 2018	BenchmarkingCPU	—Unverified
Does AI for science need another ImageNet Or totally different benchmarks? A case study of machine learning force fields	Aug 11, 2023	Benchmarking	—Unverified
Comparative evaluation of instrument segmentation and tracking methods in minimally invasive surgery	May 7, 2018	BenchmarkingSegmentation	—Unverified
Does imputation matter? Benchmark for predictive models	Jul 6, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
A Look at the Evaluation Setup of the M5 Forecasting Competition	Aug 8, 2021	BenchmarkingDecision Making	—Unverified
Comparative Design Space Exploration of Dense and Semi-Dense SLAM	Sep 15, 2015	Benchmarking	—Unverified
Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information	Dec 9, 2024	Autonomous NavigationBenchmarking	—Unverified
SWIFT: Super-fast and Robust Privacy-Preserving Machine Learning	May 20, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Comparative Benchmarking of Failure Detection Methods in Medical Image Segmentation: Unveiling the Role of Confidence Aggregation	Jun 5, 2024	BenchmarkingImage Segmentation	—Unverified
ALOJA-ML: A Framework for Automating Characterization and Knowledge Discovery in Hadoop Deployments	Nov 6, 2015	Anomaly DetectionBenchmarking	—Unverified

Show:10 25 50

← PrevPage 102 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified