Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3501–3525 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors	Feb 26, 2025	Benchmarking	—Unverified
Matrix-Free Preconditioning in Online Learning	May 29, 2019	Benchmarking	—Unverified
Benchmarking Large Language Model Volatility	Nov 26, 2023	BenchmarkingDecision Making	—Unverified
Benchmarking Large Language Models with Integer Sequence Generation Tasks	Nov 7, 2024	BenchmarkingComputational Efficiency	—Unverified
Maximum Categorical Cross Entropy (MCCE): A noise-robust alternative loss function to mitigate racial bias in Convolutional Neural Networks (CNNs) by reducing overfitting	Jan 1, 2021	BenchmarkingGeneral Classification	—Unverified
MaxpoolNMS: Getting Rid of NMS Bottlenecks in Two-Stage Object Detectors	Jun 1, 2019	BenchmarkingGeneral Classification	—Unverified
Benchmarking Pre-Trained Time Series Models for Electricity Price Forecasting	Jun 9, 2025	BenchmarkingDecision Making	—Unverified
MBA-VO: Motion Blur Aware Visual Odometry	Mar 25, 2021	BenchmarkingVisual Odometry	—Unverified
Towards Class-agnostic Tracking Using Feature Decorrelation in Point Clouds	Feb 28, 2022	BenchmarkingObject Tracking	—Unverified
MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model	May 24, 2024	BenchmarkingDemand Forecasting	—Unverified
MCL-3D: a database for stereoscopic image quality assessment using 2D-image-plus-depth source	Mar 23, 2014	BenchmarkingImage Quality Assessment	—Unverified
Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction	Oct 8, 2023	BenchmarkingDecoder	—Unverified
MCUBench: A Benchmark of Tiny Object Detectors on MCUs	Sep 27, 2024	BenchmarkingModel Selection	—Unverified
MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification	May 29, 2024	Benchmarking	—Unverified
MDR-DeePC: Model-Inspired Distributionally Robust Data-Enabled Predictive Control	Jun 24, 2025	Benchmarking	—Unverified
Benchmarking Large Language Models via Random Variables	Jan 20, 2025	BenchmarkingMathematical Reasoning	—Unverified
Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language	Jun 25, 2024	Benchmarking	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified
Measuring Large Language Models Capacity to Annotate Journalistic Sourcing	Dec 30, 2024	BenchmarkingEthics	—Unverified
Measuring the Complexity of Domains Used to Evaluate AI Systems	Sep 18, 2020	Benchmarking	—Unverified
Measuring the Effect of Causal Disentanglement on the Adversarial Robustness of Neural Network Models	Aug 21, 2023	Adversarial RobustnessBenchmarking	—Unverified
Towards Effective Disambiguation for Machine Translation with Large Language Models	Sep 20, 2023	BenchmarkingIn-Context Learning	—Unverified

Show:10 25 50

← PrevPage 141 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified