Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1851–1875 of 5548 papers

Title	Date	Tasks	Status
An Empirical Study of Automated Mislabel Detection in Real World Vision Datasets	Dec 2, 2023	Benchmarking	—Unverified
Chart-to-Experience: Benchmarking Multimodal LLMs for Predicting Experiential Impact of Charts	May 23, 2025	Benchmarking	—Unverified
Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination	Mar 6, 2025	Benchmarking	—Unverified
Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets	Mar 6, 2025	BenchmarkingDataset Generation	—Unverified
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified
ECG-Adv-GAN: Detecting ECG Adversarial Examples with Conditional Generative Adversarial Networks	Jul 16, 2021	BenchmarkingGenerative Adversarial Network	—Unverified
CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization	Jan 22, 2025	Benchmarkingregression	—Unverified
Characterizing Transactional Databases for Frequent Itemset Mining	Nov 9, 2020	Benchmarking	—Unverified
Benchmarking and Validation of Sub-mW 30GHz VG-LNAs in 22nm FDSOI CMOS for 5G/6G Phased-Array Receivers	Sep 11, 2024	Benchmarking	—Unverified
Benchmarking Deep Learning Architectures for Urban Vegetation Point Cloud Semantic Segmentation from MLS	Jun 17, 2023	BenchmarkingSegmentation	—Unverified
Context-guided Triple Matching for Multiple Choice Question Answering	Sep 27, 2021	BenchmarkingMultiple-choice	—Unverified
Context-guided Triple Matching for Multiple Choice Question Answering	Jan 16, 2022	BenchmarkingMultiple-choice	—Unverified
Characterizing the adversarial vulnerability of speech self-supervised learning	Nov 8, 2021	Adversarial RobustnessBenchmarking	—Unverified
Dynaboard: An Evaluation-As-A-Service Platform for Holistic Next-Generation Benchmarking	May 21, 2021	Benchmarking	—Unverified
Exploring the Practicality of Generative Retrieval on Dynamic Corpora	May 27, 2023	BenchmarkingInformation Retrieval	—Unverified
Continuous Function Structured in Multilayer Perceptron for Global Optimization	Mar 7, 2023	Benchmarkingglobal-optimization	—Unverified
Benchmarking Deep Learning Frameworks for Automated Diagnosis of Ocular Toxoplasmosis: A Comprehensive Approach to Classification and Segmentation	May 18, 2023	BenchmarkingDiagnostic	—Unverified
Continuous-Time Gaussian Process Motion-Compensation for Event-vision Pattern Tracking with Distance Fields	Mar 5, 2023	BenchmarkingMotion Compensation	—Unverified
Characterizing Missing Information in Deep Networks Using Backpropagated Gradients	Jan 1, 2020	Anomaly DetectionAttribute	—Unverified
Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation	Dec 4, 2023	BenchmarkingContrastive Learning	—Unverified
An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image Classification	Nov 24, 2023	Benchmarkingimage-classification	—Unverified
Characterization of Multiple 3D LiDARs for Localization and Mapping using Normal Distributions Transform	Apr 3, 2020	Benchmarking	—Unverified
Characterization of Constrained Continuous Multiobjective Optimization Problems: A Performance Space Perspective	Feb 4, 2023	BenchmarkingMultiobjective Optimization	—Unverified
Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices	Sep 25, 2024	Autonomous VehiclesBenchmarking	—Unverified
Dynabench: Rethinking Benchmarking in NLP	Apr 7, 2021	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 75 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified