Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2451–2500 of 5548 papers

Title	Date	Tasks	Status
Benchmarking large language models for materials synthesis: the case of atomic layer deposition	Dec 13, 2024	BenchmarkingHallucination	—Unverified
Benchmarking of GPU-optimized Quantum-Inspired Evolutionary Optimization Algorithm using Functional Analysis	Dec 12, 2024	BenchmarkingGPU	—Unverified
JuStRank: Benchmarking LLM Judges for System Ranking	Dec 12, 2024	Benchmarking	—Unverified
Benchmarking LLMs for Mimicking Child-Caregiver Language in Interaction	Dec 12, 2024	BenchmarkingDiversity	—Unverified
Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation	Dec 11, 2024	BenchmarkingFederated Learning	CodeCode Available
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available
LCFO: Long Context and Long Form Output Dataset and Benchmarking	Dec 11, 2024	BenchmarkingForm	—Unverified
Learn How to Query from Unlabeled Data Streams in Federated Learning	Dec 11, 2024	BenchmarkingDecision Making	CodeCode Available
Koopman Theory-Inspired Method for Learning Time Advancement Operators in Unstable Flame Front Evolution	Dec 11, 2024	Benchmarking	—Unverified
Benchmarking learned algorithms for computed tomography image reconstruction tasks	Dec 11, 2024	BenchmarkingComputed Tomography (CT)	—Unverified
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available
Graph Neural Networks Are More Than Filters: Revisiting and Benchmarking from A Spectral Perspective	Dec 10, 2024	Benchmarking	CodeCode Available
MO-IOHinspector: Anytime Benchmarking of Multi-Objective Algorithms using IOHprofiler	Dec 10, 2024	BenchmarkingExperimental Design	—Unverified
Light Field Image Quality Assessment With Auxiliary Learning Based on Depthwise and Anglewise Separable Convolutions	Dec 10, 2024	Auxiliary LearningBenchmarking	—Unverified
Bilingual BSARD: Extending Statutory Article Retrieval to Dutch	Dec 10, 2024	ArticlesBenchmarking	CodeCode Available
Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments	Dec 10, 2024	Benchmarkingobject-detection	—Unverified
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems	Dec 10, 2024	BenchmarkingMixture-of-Experts	—Unverified
Towards Graph Foundation Models: A Study on the Generalization of Positional and Structural Encodings	Dec 10, 2024	BenchmarkingGraph Learning	—Unverified
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions	Dec 9, 2024	BenchmarkingLanguage Modeling	—Unverified
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models	Dec 9, 2024	BenchmarkingInstruction Following	CodeCode Available
Is Self-Supervision Enough? Benchmarking Foundation Models Against End-to-End Training for Mitotic Figure Classification	Dec 9, 2024	Benchmarking	—Unverified
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities	Dec 9, 2024	AllBenchmarking	—Unverified
Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information	Dec 9, 2024	Autonomous NavigationBenchmarking	—Unverified
How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning	Dec 9, 2024	BenchmarkingEarth Observation	—Unverified
On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events	Dec 9, 2024	BenchmarkingComputational Efficiency	—Unverified
Diff5T: Benchmarking Human Brain Diffusion MRI with an Extensive 5.0 Tesla K-Space and Spatial Dataset	Dec 9, 2024	BenchmarkingDiffusion MRI	—Unverified
Thermal Image-based Fault Diagnosis in Induction Machines via Self-Organized Operational Neural Networks	Dec 8, 2024	BenchmarkingDiagnostic	—Unverified
Evaluating Robustness of LLMs on Crisis-Related Microblogs across Events, Information Types, and Linguistic Features	Dec 8, 2024	Benchmarking	—Unverified
A Dataset Similarity Evaluation Framework for Wireless Communications and Sensing	Dec 7, 2024	BenchmarkingDimensionality Reduction	—Unverified
ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges	Dec 6, 2024	BenchmarkingRetrieval	CodeCode Available
An Experimental Evaluation of Imputation Models for Spatial-Temporal Traffic Data	Dec 6, 2024	BenchmarkingImputation	CodeCode Available
MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects	Dec 6, 2024	2kAnomaly Detection	—Unverified
ACT-Bench: Towards Action Controllable World Models for Autonomous Driving	Dec 6, 2024	Autonomous DrivingBenchmarking	—Unverified
MozzaVID: Mozzarella Volumetric Image Dataset	Dec 6, 2024	BenchmarkingComputed Tomography (CT)	—Unverified
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models	Dec 6, 2024	BenchmarkingDialogue Understanding	—Unverified
Learning Hidden Physics and System Parameters with Deep Operator Networks	Dec 6, 2024	BenchmarkingUncertainty Quantification	—Unverified
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
Magnetic Resonance Imaging Feature-Based Subtyping and Model Ensemble for Enhanced Brain Tumor Segmentation	Dec 5, 2024	BenchmarkingBrain Tumor Segmentation	CodeCode Available
Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy	Dec 5, 2024	BenchmarkingDecoder	—Unverified
MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models	Dec 5, 2024	BenchmarkingDomain Generalization	—Unverified
From Code to Play: Benchmarking Program Search for Games Using Large Language Models	Dec 5, 2024	Atari GamesBenchmarking	—Unverified
Asynchronous Batch Bayesian Optimization with Pipelining Evaluations for Experimental Resourcex2013constrained Conditions	Dec 5, 2024	Bayesian OptimizationBenchmarking	CodeCode Available
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models	Dec 5, 2024	BenchmarkingFeature Importance	—Unverified
ARTeFACT: Benchmarking Segmentation Models on Diverse Analogue Media Damage	Dec 5, 2024	Benchmarking	—Unverified
AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?	Dec 4, 2024	BenchmarkingVisual Question Answering (VQA)	—Unverified
Benchmarking Attention Mechanisms and Consistency Regularization Semi-Supervised Learning for Post-Flood Building Damage Assessment in Satellite Images	Dec 4, 2024	BenchmarkingBuilding Damage Assessment	—Unverified
Benchmarking terminology building capabilities of ChatGPT on an English-Russian Fashion Corpus	Dec 4, 2024	Benchmarking	—Unverified
Benchmarking Pretrained Attention-based Models for Real-Time Recognition in Robot-Assisted Esophagectomy	Dec 4, 2024	AnatomyBenchmarking	—Unverified
Benchmarking Harmonized Tariff Schedule Classification Models	Dec 4, 2024	BenchmarkingClassification	—Unverified
OODFace: Benchmarking Robustness of Face Recognition under Common Corruptions and Appearance Variations	Dec 3, 2024	BenchmarkingFace Recognition	—Unverified

Show:10 25 50

← PrevPage 50 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified