Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2476–2500 of 5548 papers

Title	Date	Tasks	Status
Diff5T: Benchmarking Human Brain Diffusion MRI with an Extensive 5.0 Tesla K-Space and Spatial Dataset	Dec 9, 2024	BenchmarkingDiffusion MRI	—Unverified
Thermal Image-based Fault Diagnosis in Induction Machines via Self-Organized Operational Neural Networks	Dec 8, 2024	BenchmarkingDiagnostic	—Unverified
Evaluating Robustness of LLMs on Crisis-Related Microblogs across Events, Information Types, and Linguistic Features	Dec 8, 2024	Benchmarking	—Unverified
A Dataset Similarity Evaluation Framework for Wireless Communications and Sensing	Dec 7, 2024	BenchmarkingDimensionality Reduction	—Unverified
ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges	Dec 6, 2024	BenchmarkingRetrieval	CodeCode Available
An Experimental Evaluation of Imputation Models for Spatial-Temporal Traffic Data	Dec 6, 2024	BenchmarkingImputation	CodeCode Available
MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects	Dec 6, 2024	2kAnomaly Detection	—Unverified
ACT-Bench: Towards Action Controllable World Models for Autonomous Driving	Dec 6, 2024	Autonomous DrivingBenchmarking	—Unverified
MozzaVID: Mozzarella Volumetric Image Dataset	Dec 6, 2024	BenchmarkingComputed Tomography (CT)	—Unverified
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models	Dec 6, 2024	BenchmarkingDialogue Understanding	—Unverified
Learning Hidden Physics and System Parameters with Deep Operator Networks	Dec 6, 2024	BenchmarkingUncertainty Quantification	—Unverified
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
Magnetic Resonance Imaging Feature-Based Subtyping and Model Ensemble for Enhanced Brain Tumor Segmentation	Dec 5, 2024	BenchmarkingBrain Tumor Segmentation	CodeCode Available
Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy	Dec 5, 2024	BenchmarkingDecoder	—Unverified
MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models	Dec 5, 2024	BenchmarkingDomain Generalization	—Unverified
From Code to Play: Benchmarking Program Search for Games Using Large Language Models	Dec 5, 2024	Atari GamesBenchmarking	—Unverified
Asynchronous Batch Bayesian Optimization with Pipelining Evaluations for Experimental Resourcex2013constrained Conditions	Dec 5, 2024	Bayesian OptimizationBenchmarking	CodeCode Available
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models	Dec 5, 2024	BenchmarkingFeature Importance	—Unverified
ARTeFACT: Benchmarking Segmentation Models on Diverse Analogue Media Damage	Dec 5, 2024	Benchmarking	—Unverified
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?	Dec 4, 2024	BenchmarkingVisual Question Answering (VQA)	—Unverified
Benchmarking Attention Mechanisms and Consistency Regularization Semi-Supervised Learning for Post-Flood Building Damage Assessment in Satellite Images	Dec 4, 2024	BenchmarkingBuilding Damage Assessment	—Unverified
Benchmarking terminology building capabilities of ChatGPT on an English-Russian Fashion Corpus	Dec 4, 2024	Benchmarking	—Unverified
Benchmarking Pretrained Attention-based Models for Real-Time Recognition in Robot-Assisted Esophagectomy	Dec 4, 2024	AnatomyBenchmarking	—Unverified
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified
OODFace: Benchmarking Robustness of Face Recognition under Common Corruptions and Appearance Variations	Dec 3, 2024	BenchmarkingFace Recognition	—Unverified

Show:10 25 50

← PrevPage 100 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified