Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3626–3650 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Graph Learning for Drug-Drug Interaction Prediction	Oct 24, 2024	BenchmarkingGraph Learning	—Unverified
A Dataset for Developing and Benchmarking Active Vision	Feb 27, 2017	BenchmarkingGeneral Classification	—Unverified
Benchmarking GPUs on SVBRDF Extractor Model	Oct 19, 2023	BenchmarkingGPU	—Unverified
Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks	May 17, 2023	Benchmarking	—Unverified
Benchmarking GPU and TPU Performance with Graph Neural Networks	Oct 21, 2022	BenchmarkingGPU	—Unverified
MLPerf HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems	Oct 21, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
What if we had no Wikipedia? Domain-independent Term Extraction from a Large News Corpus	Sep 17, 2020	BenchmarkingTerm Extraction	—Unverified
mlr3proba: An R Package for Machine Learning in Survival Analysis	Aug 18, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies	Feb 27, 2024	BenchmarkingSystematic Generalization	—Unverified
Benchmarking GNNs Using Lightning Network Data	Jul 5, 2024	Benchmarking	—Unverified
A dataset for benchmarking vision-based localization at intersections	Nov 4, 2018	Benchmarking	—Unverified
Benchmarking global optimization techniques for unmanned aerial vehicle path planning	Jan 24, 2025	Benchmarkingglobal-optimization	—Unverified
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents	Jan 15, 2025	BenchmarkingOptical Character Recognition (OCR)	—Unverified
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming	Jun 14, 2024	BenchmarkingGeneral Knowledge	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
MMInA: Benchmarking Multihop Multimodal Internet Agents	Apr 15, 2024	Benchmarking	—Unverified
Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs)	Jan 21, 2025	Benchmarking	—Unverified
Benchmarking General-Purpose In-Context Learning	May 27, 2024	BenchmarkingDecision Making	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks	May 22, 2025	BenchmarkingSpatial Reasoning	—Unverified
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems	Feb 27, 2025	BenchmarkingVisual Reasoning	—Unverified
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines	Sep 19, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 146 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified