Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2901–2925 of 5548 papers

Title	Date	Tasks	Status
GNUMAP: A Parameter-Free Approach to Unsupervised Dimensionality Reduction via Graph Neural Networks	Jul 30, 2024	BenchmarkingContrastive Learning	—Unverified
Benchmarking Histopathology Foundation Models for Ovarian Cancer Bevacizumab Treatment Response Prediction from Whole Slide Images	Jul 30, 2024	BenchmarkingMultiple Instance Learning	—Unverified
Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning	Jul 29, 2024	Anomaly DetectionBenchmarking	—Unverified
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified
On the Evaluation Consistency of Attribution-based Explanations	Jul 28, 2024	Benchmarking	CodeCode Available
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection	Jul 28, 2024	BenchmarkingFake News Detection	—Unverified
Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging	Jul 26, 2024	Benchmarking	CodeCode Available
Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems	Jul 26, 2024	Benchmarking	—Unverified
GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy	Jul 25, 2024	Benchmarking	—Unverified
SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images	Jul 25, 2024	Benchmarking	—Unverified
Quality Assured: Rethinking Annotation Strategies in Imaging AI	Jul 24, 2024	Benchmarking	—Unverified
Building a Domain-specific Guardrail Model in Production	Jul 24, 2024	BenchmarkingLanguage Modelling	—Unverified
Flexible Generation of Preference Data for Recommendation Analysis	Jul 23, 2024	BenchmarkingRecommendation Systems	CodeCode Available
Can time series forecasting be automated? A benchmark and analysis	Jul 23, 2024	BenchmarkingDecision Making	—Unverified
Aggregated Attributions for Explanatory Analysis of 3D Segmentation Models	Jul 23, 2024	BenchmarkingSegmentation	CodeCode Available
Hi-EF: Benchmarking Emotion Forecasting in Human-interaction	Jul 23, 2024	Benchmarking	CodeCode Available
BONES: a Benchmark fOr Neural Estimation of Shapley values	Jul 23, 2024	Benchmarking	CodeCode Available
StylusAI: Stylistic Adaptation for Robust German Handwritten Text Generation	Jul 22, 2024	BenchmarkingText Generation	—Unverified
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA	Jul 22, 2024	BenchmarkingContrastive Learning	CodeCode Available
Benchmarks as Microscopes: A Call for Model Metrology	Jul 22, 2024	Benchmarkingmodel	—Unverified
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research	Jul 22, 2024	Benchmarking	—Unverified
Cascaded two-stage feature clustering and selection via separability and consistency in fuzzy decision systems	Jul 22, 2024	BenchmarkingClustering	—Unverified
InLUT3D: Challenging real indoor dataset for point cloud analysis	Jul 22, 2024	BenchmarkingScene Understanding	—Unverified
Open-CD: A Comprehensive Toolbox for Change Detection	Jul 22, 2024	BenchmarkingChange Detection	—Unverified
Non-Reference Quality Assessment for Medical Imaging: Application to Synthetic Brain MRIs	Jul 20, 2024	BenchmarkingDomain Adaptation	—Unverified

Show:10 25 50

← PrevPage 117 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified