Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2901–2950 of 5548 papers

Title	Date	Tasks	Status
GNUMAP: A Parameter-Free Approach to Unsupervised Dimensionality Reduction via Graph Neural Networks	Jul 30, 2024	BenchmarkingContrastive Learning	—Unverified
Benchmarking Histopathology Foundation Models for Ovarian Cancer Bevacizumab Treatment Response Prediction from Whole Slide Images	Jul 30, 2024	BenchmarkingMultiple Instance Learning	—Unverified
Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning	Jul 29, 2024	Anomaly DetectionBenchmarking	—Unverified
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified
On the Evaluation Consistency of Attribution-based Explanations	Jul 28, 2024	Benchmarking	CodeCode Available
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection	Jul 28, 2024	BenchmarkingFake News Detection	—Unverified
Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging	Jul 26, 2024	Benchmarking	CodeCode Available
Towards a Multidimensional Evaluation Framework for Empathetic Conversational Systems	Jul 26, 2024	Benchmarking	—Unverified
GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy	Jul 25, 2024	Benchmarking	—Unverified
SMiCRM: A Benchmark Dataset of Mechanistic Molecular Images	Jul 25, 2024	Benchmarking	—Unverified
Quality Assured: Rethinking Annotation Strategies in Imaging AI	Jul 24, 2024	Benchmarking	—Unverified
Building a Domain-specific Guardrail Model in Production	Jul 24, 2024	BenchmarkingLanguage Modelling	—Unverified
Flexible Generation of Preference Data for Recommendation Analysis	Jul 23, 2024	BenchmarkingRecommendation Systems	CodeCode Available
Can time series forecasting be automated? A benchmark and analysis	Jul 23, 2024	BenchmarkingDecision Making	—Unverified
Aggregated Attributions for Explanatory Analysis of 3D Segmentation Models	Jul 23, 2024	BenchmarkingSegmentation	CodeCode Available
Hi-EF: Benchmarking Emotion Forecasting in Human-interaction	Jul 23, 2024	Benchmarking	CodeCode Available
BONES: a Benchmark fOr Neural Estimation of Shapley values	Jul 23, 2024	Benchmarking	CodeCode Available
StylusAI: Stylistic Adaptation for Robust German Handwritten Text Generation	Jul 22, 2024	BenchmarkingText Generation	—Unverified
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA	Jul 22, 2024	BenchmarkingContrastive Learning	CodeCode Available
Benchmarks as Microscopes: A Call for Model Metrology	Jul 22, 2024	Benchmarkingmodel	—Unverified
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research	Jul 22, 2024	Benchmarking	—Unverified
Cascaded two-stage feature clustering and selection via separability and consistency in fuzzy decision systems	Jul 22, 2024	BenchmarkingClustering	—Unverified
InLUT3D: Challenging real indoor dataset for point cloud analysis	Jul 22, 2024	BenchmarkingScene Understanding	—Unverified
Open-CD: A Comprehensive Toolbox for Change Detection	Jul 22, 2024	BenchmarkingChange Detection	—Unverified
Non-Reference Quality Assessment for Medical Imaging: Application to Synthetic Brain MRIs	Jul 20, 2024	BenchmarkingDomain Adaptation	—Unverified
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking	Jul 19, 2024	BenchmarkingMulti-Object Tracking	—Unverified
Vision-Based Power Line Cables and Pylons Detection for Low Flying Aircraft	Jul 19, 2024	BenchmarkingTransfer Learning	—Unverified
SHS: Scorpion Hunting Strategy Swarm Algorithm	Jul 19, 2024	Benchmarking	—Unverified
Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection	Jul 19, 2024	BenchmarkingModel Selection	—Unverified
Benchmarking deep learning models for bearing fault diagnosis using the CWRU dataset: A multi-label approach	Jul 19, 2024	BenchmarkingBinary Classification	—Unverified
Enhancing Biomedical Knowledge Discovery for Diseases: An Open-Source Framework Applied on Rett Syndrome and Alzheimer's Disease	Jul 18, 2024	Benchmarking	CodeCode Available
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle	Jul 18, 2024	BenchmarkingLanguage Modeling	—Unverified
RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark	Jul 18, 2024	3D Human Pose EstimationBenchmarking	—Unverified
Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance	Jul 18, 2024	Benchmarking	—Unverified
Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks	Jul 17, 2024	Adversarial RobustnessBenchmarking	CodeCode Available
FETCH: A Memory-Efficient Replay Approach for Continual Learning in Image Classification	Jul 17, 2024	BenchmarkingContinual Learning	—Unverified
Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models?	Jul 17, 2024	BenchmarkingSarcasm Detection	—Unverified
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models	Jul 17, 2024	BenchmarkingLanguage Modelling	—Unverified
Abstraction Alignment: Comparing Model-Learned and Human-Encoded Conceptual Relationships	Jul 17, 2024	Benchmarking	CodeCode Available
HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects	Jul 17, 2024	BenchmarkingHuman-Object Interaction Detection	—Unverified
Comprehensive Review and Empirical Evaluation of Causal Discovery Algorithms for Numerical Data	Jul 17, 2024	ArticlesBenchmarking	—Unverified
Temporal receptive field in dynamic graph learning: A comprehensive analysis	Jul 17, 2024	BenchmarkingDynamic Link Prediction	CodeCode Available
A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification	Jul 16, 2024	BenchmarkingFew-Shot Learning	—Unverified
Feature interpretability in BCIs: exploring the role of network lateralization	Jul 16, 2024	BenchmarkingEEG	CodeCode Available
Benchmarking the Attribution Quality of Vision Models	Jul 16, 2024	BenchmarkingExplainable Models	CodeCode Available
REMM:Rotation-Equivariant Framework for End-to-End Multimodal Image Matching	Jul 16, 2024	Benchmarking	CodeCode Available
AstroMLab 1: Who Wins Astronomy Jeopardy!?	Jul 15, 2024	AstronomyBenchmarking	—Unverified
On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction	Jul 15, 2024	Active LearningBenchmarking	—Unverified
ConvBench: A Comprehensive Benchmark for 2D Convolution Primitive Evaluation	Jul 15, 2024	Benchmarking	—Unverified
Benchmarking Vision Language Models for Cultural Understanding	Jul 15, 2024	BenchmarkingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 59 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified