Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3176–3200 of 5548 papers

Title	Date	Tasks	Status
Fluorescent Neuronal Cells v2: Multi-Task, Multi-Format Annotations for Deep Learning in Microscopy	Jul 26, 2023	Benchmarkingobject-detection	—Unverified
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks	Oct 1, 2024	BenchmarkingFairness	—Unverified
uto\!L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks	Oct 11, 2024	BenchmarkingLanguage Modeling	—Unverified
ForamViT-GAN: Exploring New Paradigms in Deep Learning for Micropaleontological Image Analysis	Apr 9, 2023	BenchmarkingDeep Learning	—Unverified
Forecasting Lithium-Ion Battery Longevity with Limited Data Availability: Benchmarking Different Machine Learning Algorithms	Dec 10, 2023	Battery cycle life predictionBenchmarking	—Unverified
Forecasting NIFTY 50 benchmark Index using Seasonal ARIMA time series models	Jan 9, 2020	BenchmarkingTime Series	—Unverified
FOR-instance: a UAV laser scanning benchmark dataset for semantic and instance segmentation of individual trees	Sep 3, 2023	BenchmarkingInstance Segmentation	—Unverified
FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring	Jan 17, 2025	BenchmarkingData Augmentation	—Unverified
Formal Covariate Benchmarking to Bound Omitted Variable Bias	Jun 18, 2023	BenchmarkingSensitivity	—Unverified
FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents	Jun 2, 2025	BenchmarkingForm	—Unverified
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified
Foundations for learning from noisy quantum experiments	Apr 28, 2022	Benchmarking	—Unverified
Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate	May 28, 2025	Benchmarking	—Unverified
FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting	Oct 15, 2024	Benchmarkingenergy management	—Unverified
Framework and Benchmarks for Combinatorial and Mixed-variable Bayesian Optimization	Jun 16, 2023	Bayesian OptimizationBenchmarking	—Unverified
FRED: The Florence RGB-Event Drone Dataset	Jun 5, 2025	BenchmarkingTrajectory Forecasting	—Unverified
Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification	May 24, 2024	BenchmarkingData Augmentation	—Unverified
From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction	Mar 15, 2022	3D geometryBenchmarking	—Unverified
From Audio Encoders to Piano Judges: Benchmarking Performance Understanding for Solo Piano	Jul 5, 2024	AttributeBenchmarking	—Unverified
From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems	Oct 24, 2024	BenchmarkingCommon Sense Reasoning	—Unverified
From Code to Play: Benchmarking Program Search for Games Using Large Language Models	Dec 5, 2024	Atari GamesBenchmarking	—Unverified
From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks	Apr 14, 2022	Adversarial AttackAdversarial Robustness	—Unverified
From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT	May 17, 2024	BenchmarkingMultiple-choice	—Unverified
From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation	May 24, 2025	ArticlesBenchmarking	—Unverified
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents	Sep 3, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 128 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified