Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3401–3425 of 5548 papers

Title	Date	Tasks	Status
MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks	May 22, 2025	BenchmarkingSpatial Reasoning	—Unverified
MMSciBench: Benchmarking Language Models on Multimodal Scientific Problems	Feb 27, 2025	BenchmarkingVisual Reasoning	—Unverified
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines	Sep 19, 2024	Benchmarking	—Unverified
MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents	Jun 12, 2024	BenchmarkingLanguage Modeling	—Unverified
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases	Jun 12, 2024	BenchmarkingModel Compression	—Unverified
Model Agnostic Explainable Selective Regression via Uncertainty Estimation	Nov 15, 2023	Benchmarkingmodel	—Unverified
Model-based trajectory stitching for improved behavioural cloning and its applications	Dec 8, 2022	Behavioural cloningBenchmarking	—Unverified
Model-Based Underwater 6D Pose Estimation from RGB	Feb 14, 2023	2D Object Detection6D Pose Estimation	—Unverified
ModelHub.AI: Dissemination Platform for Deep Learning Models	Nov 26, 2019	BenchmarkingDeep Learning	—Unverified
Model Lakes	Mar 4, 2024	BenchmarkingManagement	—Unverified
Modelling Neuronal Behaviour with Time Series Regression: Recurrent Neural Networks on C. Elegans Data	Jul 1, 2021	Benchmarkingregression	—Unverified
Modelling neuronal behaviour with time series regression: Recurrent Neural Networks on synthetic C. elegans data	Sep 29, 2021	Benchmarkingregression	—Unverified
Modelling Regional Solar Photovoltaic Capacity in Great Britain	Feb 26, 2025	Benchmarking	—Unverified
Model-predictive control and reinforcement learning in multi-energy system case studies	Apr 20, 2021	BenchmarkingModel Predictive Control	—Unverified
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities	Feb 3, 2025	BenchmarkingLarge Language Model	—Unverified
Modern CNNs for IoT Based Farms	Jul 15, 2019	BenchmarkingCloud Computing	—Unverified
Modern, Efficient, and Differentiable Transport Equation Models using JAX: Applications to Population Balance Equations	Nov 1, 2024	BenchmarkingComputational Efficiency	—Unverified
Modified CMA-ES Algorithm for Multi-Modal Optimization: Incorporating Niching Strategies and Dynamic Adaptation Mechanism	Jul 1, 2024	BenchmarkingDiversity	—Unverified
ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language Models	Jun 1, 2025	BenchmarkingRelational Reasoning	—Unverified
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems	Dec 10, 2024	BenchmarkingMixture-of-Experts	—Unverified
MoE-Gyro: Self-Supervised Over-Range Reconstruction and Denoising for MEMS Gyroscopes	May 27, 2025	BenchmarkingDenoising	—Unverified
MO-IOHinspector: Anytime Benchmarking of Multi-Objective Algorithms using IOHprofiler	Dec 10, 2024	BenchmarkingExperimental Design	—Unverified
MolMiner: Towards Controllable, 3D-Aware, Fragment-Based Molecular Design	Nov 10, 2024	3D geometryBenchmarking	—Unverified
MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from Monocular RGB Videos	Dec 9, 2020	BenchmarkingObject	—Unverified
Momentum Contrastive Pre-training for Question Answering	Dec 12, 2022	BenchmarkingContrastive Learning	—Unverified

Show:10 25 50

← PrevPage 137 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified