Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3376–3400 of 5548 papers

Title	Date	Tasks	Status
Microvasculature Segmentation in Human BioMolecular Atlas Program (HuBMAP)	Aug 6, 2023	BenchmarkingImage Segmentation	—Unverified
MileBench: Benchmarking MLLMs in Long Context	Apr 29, 2024	BenchmarkingDiagnostic	—Unverified
MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries	May 22, 2025	BenchmarkingInformation Retrieval	—Unverified
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge	Jun 26, 2025	Benchmarking	—Unverified
Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification	Feb 6, 2024	BenchmarkingMultiple-choice	—Unverified
Mind the Retrosynthesis Gap: Bridging the divide between Single-step and Multi-step Retrosynthesis Prediction	Dec 12, 2022	BenchmarkingMulti-step retrosynthesis	—Unverified
Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning	Dec 18, 2024	BenchmarkingPosition	—Unverified
MIRAI: Evaluating LLM Agents for Event Forecasting	Jul 1, 2024	ArticlesBenchmarking	—Unverified
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning?	Feb 14, 2025	BenchmarkingIn-Context Learning	—Unverified
Mitigating severe over-parameterization in deep convolutional neural networks through forced feature abstraction and compression with an entropy-based heuristic	Jun 27, 2021	BenchmarkingFeature Compression	—Unverified
Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous Devices	Nov 29, 2023	BenchmarkingFederated Learning	—Unverified
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation	Feb 3, 2025	BenchmarkingFairness	—Unverified
MLAR: Multi-layer Large Language Model-based Robotic Process Automation Applicant Tracking	Jul 14, 2025	BenchmarkingLanguage Modeling	—Unverified
MLHarness: A Scalable Benchmarking System for MLCommons	Nov 9, 2021	Benchmarking	—Unverified
MLModelScope: A Distributed Platform for ML Model Evaluation and Benchmarking at Scale	Sep 25, 2019	Benchmarking	—Unverified
MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale	Feb 19, 2020	Benchmarking	—Unverified
MLPerf HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems	Oct 21, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
mlr3proba: An R Package for Machine Learning in Survival Analysis	Aug 18, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents	Jan 15, 2025	BenchmarkingOptical Character Recognition (OCR)	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
MMInA: Benchmarking Multihop Multimodal Internet Agents	Apr 15, 2024	Benchmarking	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified

Show:10 25 50

← PrevPage 136 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified