Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3151–3175 of 5548 papers

Title	Date	Tasks	Status
FER-C: Benchmarking Out-of-Distribution Soft Calibration for Facial Expression Recognition	Dec 16, 2023	BenchmarkingFacial Expression Recognition	—Unverified
FETCH: A Memory-Efficient Replay Approach for Continual Learning in Image Classification	Jul 17, 2024	BenchmarkingContinual Learning	—Unverified
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding	Nov 16, 2021	BenchmarkingNatural Language Understanding	—Unverified
Few-Shot Defect Segmentation Leveraging Abundant Normal Training Samples Through Normal Background Regularization and Crop-and-Paste Operation	Jul 18, 2020	Anomaly DetectionBenchmarking	—Unverified
Few-Shot Learning for Industrial Time Series: A Comparative Analysis Using the Example of Screw-Fastening Process Monitoring	Jun 16, 2025	BenchmarkingFew-Shot Learning	—Unverified
Fiber Bundle Morphisms as a Framework for Modeling Many-to-Many Maps	Mar 15, 2022	BenchmarkingSentiment Analysis	—Unverified
E(3)-equivariant models cannot learn chirality: Field-based molecular generation	Feb 24, 2024	BenchmarkingGraph Neural Network	—Unverified
Filter Methods for Feature Selection in Supervised Machine Learning Applications -- Review and Benchmark	Nov 23, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
Finance Language Model Evaluation (FLaME)	Jun 18, 2025	BenchmarkingLanguage Model Evaluation	—Unverified
Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging	Jun 6, 2023	BenchmarkingSentence	—Unverified
Findings of the Shared Task on Offensive Language Identification in Tamil, Malayalam, and Kannada	Apr 1, 2021	BenchmarkingLanguage Identification	—Unverified
Fine-Grained Classification of Pedestrians in Video: Benchmark and State of the Art	May 20, 2016	BenchmarkingGeneral Classification	—Unverified
FineText: Text Classification via Attention-based Language Model Fine-tuning	Oct 25, 2019	BenchmarkingClassification	—Unverified
Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency	Jan 30, 2025	BenchmarkingLanguage Modeling	—Unverified
FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets	Oct 7, 2023	Benchmarkingnamed-entity-recognition	—Unverified
FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets	May 26, 2025	BenchmarkingGPU	—Unverified
FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance	Mar 7, 2025	ArticlesBenchmarking	—Unverified
FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking	Apr 2, 2025	3D Scene ReconstructionBenchmarking	—Unverified
FISBe: A Real-World Benchmark Dataset for Instance Segmentation of Long-Range Thin Filamentous Structures	Jan 1, 2024	BenchmarkingInstance Segmentation	—Unverified
FixCLR: Negative-Class Contrastive Learning for Semi-Supervised Domain Generalization	Jun 25, 2025	BenchmarkingContrastive Learning	—Unverified
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems	Jun 8, 2023	BenchmarkingEdge-computing	—Unverified
FLHetBench: Benchmarking Device and State Heterogeneity in Federated Learning	Jan 1, 2024	BenchmarkingFederated Learning	—Unverified
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents	Jun 21, 2024	Benchmarking	—Unverified
FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models	Jun 3, 2025	BenchmarkingDomain Adaptation	—Unverified
FlowMind: Automatic Workflow Generation with LLMs	Mar 17, 2024	BenchmarkingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 127 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified