Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3151–3200 of 5548 papers

Title	Date	Tasks	Status
FER-C: Benchmarking Out-of-Distribution Soft Calibration for Facial Expression Recognition	Dec 16, 2023	BenchmarkingFacial Expression Recognition	—Unverified
FETCH: A Memory-Efficient Replay Approach for Continual Learning in Image Classification	Jul 17, 2024	BenchmarkingContinual Learning	—Unverified
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding	Nov 16, 2021	BenchmarkingNatural Language Understanding	—Unverified
Few-Shot Defect Segmentation Leveraging Abundant Normal Training Samples Through Normal Background Regularization and Crop-and-Paste Operation	Jul 18, 2020	Anomaly DetectionBenchmarking	—Unverified
Few-Shot Learning for Industrial Time Series: A Comparative Analysis Using the Example of Screw-Fastening Process Monitoring	Jun 16, 2025	BenchmarkingFew-Shot Learning	—Unverified
Fiber Bundle Morphisms as a Framework for Modeling Many-to-Many Maps	Mar 15, 2022	BenchmarkingSentiment Analysis	—Unverified
E(3)-equivariant models cannot learn chirality: Field-based molecular generation	Feb 24, 2024	BenchmarkingGraph Neural Network	—Unverified
Filter Methods for Feature Selection in Supervised Machine Learning Applications -- Review and Benchmark	Nov 23, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
Finance Language Model Evaluation (FLaME)	Jun 18, 2025	BenchmarkingLanguage Model Evaluation	—Unverified
Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging	Jun 6, 2023	BenchmarkingSentence	—Unverified
Findings of the Shared Task on Offensive Language Identification in Tamil, Malayalam, and Kannada	Apr 1, 2021	BenchmarkingLanguage Identification	—Unverified
Fine-Grained Classification of Pedestrians in Video: Benchmark and State of the Art	May 20, 2016	BenchmarkingGeneral Classification	—Unverified
FineText: Text Classification via Attention-based Language Model Fine-tuning	Oct 25, 2019	BenchmarkingClassification	—Unverified
Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency	Jan 30, 2025	BenchmarkingLanguage Modeling	—Unverified
FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets	Oct 7, 2023	Benchmarkingnamed-entity-recognition	—Unverified
FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets	May 26, 2025	BenchmarkingGPU	—Unverified
FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance	Mar 7, 2025	ArticlesBenchmarking	—Unverified
FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking	Apr 2, 2025	3D Scene ReconstructionBenchmarking	—Unverified
FISBe: A Real-World Benchmark Dataset for Instance Segmentation of Long-Range Thin Filamentous Structures	Jan 1, 2024	BenchmarkingInstance Segmentation	—Unverified
FixCLR: Negative-Class Contrastive Learning for Semi-Supervised Domain Generalization	Jun 25, 2025	BenchmarkingContrastive Learning	—Unverified
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems	Jun 8, 2023	BenchmarkingEdge-computing	—Unverified
FLHetBench: Benchmarking Device and State Heterogeneity in Federated Learning	Jan 1, 2024	BenchmarkingFederated Learning	—Unverified
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents	Jun 21, 2024	Benchmarking	—Unverified
FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models	Jun 3, 2025	BenchmarkingDomain Adaptation	—Unverified
FlowMind: Automatic Workflow Generation with LLMs	Mar 17, 2024	BenchmarkingQuestion Answering	—Unverified
Fluorescent Neuronal Cells v2: Multi-Task, Multi-Format Annotations for Deep Learning in Microscopy	Jul 26, 2023	Benchmarkingobject-detection	—Unverified
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks	Oct 1, 2024	BenchmarkingFairness	—Unverified
uto\!L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks	Oct 11, 2024	BenchmarkingLanguage Modeling	—Unverified
ForamViT-GAN: Exploring New Paradigms in Deep Learning for Micropaleontological Image Analysis	Apr 9, 2023	BenchmarkingDeep Learning	—Unverified
Forecasting Lithium-Ion Battery Longevity with Limited Data Availability: Benchmarking Different Machine Learning Algorithms	Dec 10, 2023	Battery cycle life predictionBenchmarking	—Unverified
Forecasting NIFTY 50 benchmark Index using Seasonal ARIMA time series models	Jan 9, 2020	BenchmarkingTime Series	—Unverified
FOR-instance: a UAV laser scanning benchmark dataset for semantic and instance segmentation of individual trees	Sep 3, 2023	BenchmarkingInstance Segmentation	—Unverified
FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring	Jan 17, 2025	BenchmarkingData Augmentation	—Unverified
Formal Covariate Benchmarking to Bound Omitted Variable Bias	Jun 18, 2023	BenchmarkingSensitivity	—Unverified
FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents	Jun 2, 2025	BenchmarkingForm	—Unverified
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified
Foundations for learning from noisy quantum experiments	Apr 28, 2022	Benchmarking	—Unverified
Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate	May 28, 2025	Benchmarking	—Unverified
FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting	Oct 15, 2024	Benchmarkingenergy management	—Unverified
Framework and Benchmarks for Combinatorial and Mixed-variable Bayesian Optimization	Jun 16, 2023	Bayesian OptimizationBenchmarking	—Unverified
FRED: The Florence RGB-Event Drone Dataset	Jun 5, 2025	BenchmarkingTrajectory Forecasting	—Unverified
Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification	May 24, 2024	BenchmarkingData Augmentation	—Unverified
From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction	Mar 15, 2022	3D geometryBenchmarking	—Unverified
From Audio Encoders to Piano Judges: Benchmarking Performance Understanding for Solo Piano	Jul 5, 2024	AttributeBenchmarking	—Unverified
From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems	Oct 24, 2024	BenchmarkingCommon Sense Reasoning	—Unverified
From Code to Play: Benchmarking Program Search for Games Using Large Language Models	Dec 5, 2024	Atari GamesBenchmarking	—Unverified
From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks	Apr 14, 2022	Adversarial AttackAdversarial Robustness	—Unverified
From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT	May 17, 2024	BenchmarkingMultiple-choice	—Unverified
From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation	May 24, 2025	ArticlesBenchmarking	—Unverified
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents	Sep 3, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 64 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified