Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2076–2100 of 5548 papers

Title	Date	Tasks	Status
Benchmark Dataset for Pore-Scale CO2-Water Interaction	Mar 22, 2025	Benchmarking	—Unverified
IceBench: A Benchmark for Deep Learning based Sea Ice Type Classification	Mar 22, 2025	BenchmarkingClassification	CodeCode Available
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding	Mar 22, 2025	BenchmarkingObject	CodeCode Available
CausalRivers -- Scaling up benchmarking of causal discovery for real-world time-series	Mar 21, 2025	Anomaly DetectionBenchmarking	—Unverified
ContextGNN goes to Elliot: Towards Benchmarking Relational Deep Learning for Static Link Prediction (aka Personalized Item Recommendation)	Mar 20, 2025	BenchmarkingLink Prediction	CodeCode Available
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph	Mar 20, 2025	BenchmarkingHallucination	—Unverified
A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough?	Mar 20, 2025	Benchmarking	—Unverified
Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI	Mar 20, 2025	BenchmarkingFairness	—Unverified
DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs	Mar 20, 2025	BenchmarkingHallucination	—Unverified
ImputeGAP: A Comprehensive Library for Time Series Imputation	Mar 19, 2025	BenchmarkingImputation	—Unverified
Kolmogorov-Arnold Network for Transistor Compact Modeling	Mar 19, 2025	Benchmarking	—Unverified
FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding	Mar 19, 2025	BenchmarkingMultiple-choice	—Unverified
SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes	Mar 19, 2025	3D Semantic SegmentationBenchmarking	—Unverified
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks	Mar 19, 2025	BenchmarkingDomain Adaptation	—Unverified
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available
Benchmarking Large Language Models for Handwritten Text Recognition	Mar 19, 2025	BenchmarkingHandwritten Text Recognition	—Unverified
Benchmarking Failures in Tool-Augmented Language Models	Mar 18, 2025	BenchmarkingText Generation	CodeCode Available
CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models	Mar 18, 2025	BenchmarkingSpatial Reasoning	CodeCode Available
COPA: Comparing the Incomparable to Explore the Pareto Front	Mar 18, 2025	AutoMLBenchmarking	—Unverified
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models	Mar 18, 2025	BenchmarkingChatbot	—Unverified
Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis	Mar 18, 2025	BenchmarkingDrug Response Prediction	CodeCode Available
Stable Virtual Camera: Generative View Synthesis with Diffusion Models	Mar 18, 2025	Benchmarking	—Unverified
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard	Mar 18, 2025	BenchmarkingHuman Dynamics	—Unverified
Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering	Mar 18, 2025	BenchmarkingDescriptive	—Unverified
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified

Show:10 25 50

← PrevPage 84 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified