Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4126–4150 of 5548 papers

Title	Date	Tasks	Status
Person Search by Multi-Scale Matching	Jul 23, 2018	BenchmarkingHuman Detection	—Unverified
Person Search by Multi-Scale Matching	Sep 1, 2018	BenchmarkingHuman Detection	—Unverified
Perspective on recent developments and challenges in regulatory and systems genomics	Nov 7, 2024	Benchmarking	—Unverified
Perspectives on the State and Future of Deep Learning -- 2023	Dec 7, 2023	BenchmarkingDeep Learning	—Unverified
Perturbation-based exploration methods in deep reinforcement learning	Nov 10, 2020	Atari GamesBenchmarking	—Unverified
Benchmark Analysis of Various Pre-trained Deep Learning Models on ASSIRA Cats and Dogs Dataset	Jan 9, 2024	Benchmarkingimage-classification	—Unverified
BENCHIP: Benchmarking Intelligence Processors	Oct 23, 2017	BenchmarkingDiversity	—Unverified
PGLearn -- An Open-Source Learning Toolkit for Optimal Power Flow	May 28, 2025	Benchmarking	—Unverified
PGLib-CO2: A Power Grid Library for Computing and Optimizing Carbon Emissions	Jun 17, 2025	Benchmarking	—Unverified
BenchCouncil's View on Benchmarking AI and Other Emerging Workloads	Dec 2, 2019	Benchmarking	—Unverified
PhD Thesis on Code Modulated Interferometric Imaging System using Phased Arrays	Jul 19, 2021	Benchmarking	—Unverified
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle	Jul 18, 2024	BenchmarkingLanguage Modeling	—Unverified
PhilHumans: Benchmarking Machine Learning for Personal Health	May 4, 2024	Action AnticipationBenchmarking	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding	Jan 27, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models	May 30, 2025	Benchmarking	—Unverified
Physics-Learning AI Datamodel (PLAID) datasets: a collection of physics simulations for machine learning	May 5, 2025	Benchmarking	—Unverified
Benanza: Automatic μBenchmark Generation to Compute "Lower-bound" Latency and Inform Optimizations of Deep Learning Models on GPUs	Nov 16, 2019	BenchmarkingGPU	—Unverified
PhytoSynth: Leveraging Multi-modal Generative Models for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering Approach	May 3, 2025	BenchmarkingImage-to-Image Translation	—Unverified
BelHouse3D: A Benchmark Dataset for Assessing Occlusion Robustness in 3D Point Cloud Semantic Segmentation	Nov 20, 2024	BenchmarkingPoint Cloud Segmentation	—Unverified
Behavior Structformer: Learning Players Representations with Structured Tokenization	Jun 7, 2024	Benchmarking	—Unverified
Yesil o1 Pro: Evidence-Based AI Model for Health and Benchmarking in Clinical Decision Support	Feb 15, 2025	BenchmarkingEpidemiology	—Unverified
PieTrack: An MOT solution based on synthetic data training and self-supervised domain adaptation	Jul 22, 2022	BenchmarkingDomain Adaptation	—Unverified
BEHAVIOR in Habitat 2.0: Simulator-Independent Logical Task Description for Benchmarking Embodied AI Agents	Jun 13, 2022	Benchmarking	—Unverified
Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data	Sep 23, 2023	BenchmarkingSuper-Resolution	—Unverified

Show:10 25 50

← PrevPage 166 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified