Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3601–3650 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Histopathology Foundation Models for Ovarian Cancer Bevacizumab Treatment Response Prediction from Whole Slide Images	Jul 30, 2024	BenchmarkingMultiple Instance Learning	—Unverified
Benchmarking high-fidelity pedestrian tracking systems for research, real-time monitoring and crowd control	Aug 26, 2021	BenchmarkingDensity Estimation	—Unverified
What Emotions Make One or Five Stars? Understanding Ratings of Online Product Reviews by Sentiment Analysis and XAI	Feb 29, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Benchmarking Hierarchical Image Pyramid Transformer for the classification of colon biopsies and polyps in histopathology images	May 24, 2024	BenchmarkingClassification	—Unverified
ADCB: An Alzheimer's disease benchmark for evaluating observational estimators of causal effects	Nov 12, 2021	BenchmarkingCausal Inference	—Unverified
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems	May 16, 2025	BenchmarkingMixture-of-Experts	—Unverified
MIRAI: Evaluating LLM Agents for Event Forecasting	Jul 1, 2024	ArticlesBenchmarking	—Unverified
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?	Feb 14, 2025	BenchmarkingIn-Context Learning	—Unverified
Benchmarking Heterogeneous Treatment Effect Models through the Lens of Interpretability	Jun 16, 2022	BenchmarkingFeature Importance	—Unverified
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models	Mar 10, 2025	AllBenchmarking	—Unverified
Benchmarking Hebbian learning rules for associative memory	Dec 30, 2023	Benchmarking	—Unverified
Mitigating severe over-parameterization in deep convolutional neural networks through forced feature abstraction and compression with an entropy-based heuristic	Jun 27, 2021	BenchmarkingFeature Compression	—Unverified
Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous Devices	Nov 29, 2023	BenchmarkingFederated Learning	—Unverified
A Dataset Similarity Evaluation Framework for Wireless Communications and Sensing	Dec 7, 2024	BenchmarkingDimensionality Reduction	—Unverified
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation	Feb 3, 2025	BenchmarkingFairness	—Unverified
Towards Large-Scale Small Object Detection: Survey and Benchmarks	Jul 28, 2022	BenchmarkingObject	—Unverified
MLAR: Multi-layer Large Language Model-based Robotic Process Automation Applicant Tracking	Jul 14, 2025	BenchmarkingLanguage Modeling	—Unverified
Towards Long-Term predictions of Turbulence using Neural Operators	Jul 25, 2023	Benchmarking	—Unverified
Benchmarking Graph Neural Networks on Link Prediction	Feb 24, 2021	BenchmarkingGraph Attention	—Unverified
MLHarness: A Scalable Benchmarking System for MLCommons	Nov 9, 2021	Benchmarking	—Unverified
Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs	May 12, 2025	BenchmarkingDocument Layout Analysis	—Unverified
MLModelScope: A Distributed Platform for ML Model Evaluation and Benchmarking at Scale	Sep 25, 2019	Benchmarking	—Unverified
MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale	Feb 19, 2020	Benchmarking	—Unverified
A Dataset for Movie Description	Jan 12, 2015	BenchmarkingDescriptive	—Unverified
Benchmarking Graph Learning for Drug-Drug Interaction Prediction	Oct 24, 2024	BenchmarkingGraph Learning	—Unverified
A Dataset for Developing and Benchmarking Active Vision	Feb 27, 2017	BenchmarkingGeneral Classification	—Unverified
Benchmarking GPUs on SVBRDF Extractor Model	Oct 19, 2023	BenchmarkingGPU	—Unverified
Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks	May 17, 2023	Benchmarking	—Unverified
Benchmarking GPU and TPU Performance with Graph Neural Networks	Oct 21, 2022	BenchmarkingGPU	—Unverified
MLPerf HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems	Oct 21, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
What if we had no Wikipedia? Domain-independent Term Extraction from a Large News Corpus	Sep 17, 2020	BenchmarkingTerm Extraction	—Unverified
mlr3proba: An R Package for Machine Learning in Survival Analysis	Aug 18, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies	Feb 27, 2024	BenchmarkingSystematic Generalization	—Unverified
Benchmarking GNNs Using Lightning Network Data	Jul 5, 2024	Benchmarking	—Unverified
A dataset for benchmarking vision-based localization at intersections	Nov 4, 2018	Benchmarking	—Unverified
Benchmarking global optimization techniques for unmanned aerial vehicle path planning	Jan 24, 2025	Benchmarkingglobal-optimization	—Unverified
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents	Jan 15, 2025	BenchmarkingOptical Character Recognition (OCR)	—Unverified
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming	Jun 14, 2024	BenchmarkingGeneral Knowledge	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
MMInA: Benchmarking Multihop Multimodal Internet Agents	Apr 15, 2024	Benchmarking	—Unverified
Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs)	Jan 21, 2025	Benchmarking	—Unverified
Benchmarking General-Purpose In-Context Learning	May 27, 2024	BenchmarkingDecision Making	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks	May 22, 2025	BenchmarkingSpatial Reasoning	—Unverified
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems	Feb 27, 2025	BenchmarkingVisual Reasoning	—Unverified
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines	Sep 19, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 73 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified