Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2051–2100 of 5548 papers

Title	Date	Tasks	Status
LIM: Large Interpolator Model for Dynamic Reconstruction	Mar 28, 2025	4D reconstructionBenchmarking	—Unverified
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition	Mar 27, 2025	Benchmarkingscientific discovery	—Unverified
Benchmarking Deep Learning-Based Methods for Irradiance Nowcasting with Sky Images	Mar 27, 2025	Benchmarking	—Unverified
CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?	Mar 27, 2025	BenchmarkingSpecificity	CodeCode Available
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance	Mar 27, 2025	BenchmarkingImage Generation	—Unverified
GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics	Mar 27, 2025	BenchmarkingNatural Language Queries	—Unverified
CSPO: Cross-Market Synergistic Stock Price Movement Forecasting with Pseudo-volatility Optimization	Mar 26, 2025	Benchmarking	—Unverified
RxRx3-core: Benchmarking drug-target interactions in High-Content Microscopy	Mar 26, 2025	BenchmarkingRepresentation Learning	—Unverified
Benchmarking and optimizing organism wide single-cell RNA alignment methods	Mar 26, 2025	BenchmarkingDecoder	CodeCode Available
Can geometric combinatorics improve RNA branching predictions?	Mar 26, 2025	Benchmarking	CodeCode Available
Benchmarking Machine Learning Methods for Distributed Acoustic Sensing	Mar 26, 2025	BenchmarkingData Augmentation	—Unverified
Reservoir Computing with a Single Oscillating Gas Bubble: Emphasizing the Chaotic Regime	Mar 25, 2025	BenchmarkingLearning Theory	—Unverified
Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy	Mar 25, 2025	Benchmarkingspeech-recognition	—Unverified
Writing as a testbed for open ended agents	Mar 25, 2025	BenchmarkingDiversity	—Unverified
LLM Benchmarking with LLaMA2: Evaluating Code Development Performance Across Multiple Programming Languages	Mar 24, 2025	Benchmarking	CodeCode Available
Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis	Mar 24, 2025	BenchmarkingImage Reconstruction	—Unverified
EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation	Mar 24, 2025	BenchmarkingData Augmentation	—Unverified
Enhancing Multi-Label Emotion Analysis and Corresponding Intensities for Ethiopian Languages	Mar 24, 2025	BenchmarkingDecision Making	—Unverified
Benchmarking Post-Hoc Unknown-Category Detection in Food Recognition	Mar 24, 2025	BenchmarkingFood Recognition	—Unverified
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified
Regularization of ML models for Earth systems by using longer model timesteps	Mar 23, 2025	Benchmarking	—Unverified
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Accurate Peak Detection in Multimodal Optimization via Approximated Landscape Learning	Mar 23, 2025	Benchmarking	CodeCode Available
CardioTabNet: A Novel Hybrid Transformer Model for Heart Disease Prediction using Tabular Medical Data	Mar 22, 2025	BenchmarkingDisease Prediction	—Unverified
Benchmark Dataset for Pore-Scale CO2-Water Interaction	Mar 22, 2025	Benchmarking	—Unverified
IceBench: A Benchmark for Deep Learning based Sea Ice Type Classification	Mar 22, 2025	BenchmarkingClassification	CodeCode Available
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding	Mar 22, 2025	BenchmarkingObject	CodeCode Available
CausalRivers -- Scaling up benchmarking of causal discovery for real-world time-series	Mar 21, 2025	Anomaly DetectionBenchmarking	—Unverified
ContextGNN goes to Elliot: Towards Benchmarking Relational Deep Learning for Static Link Prediction (aka Personalized Item Recommendation)	Mar 20, 2025	BenchmarkingLink Prediction	CodeCode Available
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph	Mar 20, 2025	BenchmarkingHallucination	—Unverified
A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough?	Mar 20, 2025	Benchmarking	—Unverified
Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI	Mar 20, 2025	BenchmarkingFairness	—Unverified
DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs	Mar 20, 2025	BenchmarkingHallucination	—Unverified
ImputeGAP: A Comprehensive Library for Time Series Imputation	Mar 19, 2025	BenchmarkingImputation	—Unverified
Kolmogorov-Arnold Network for Transistor Compact Modeling	Mar 19, 2025	Benchmarking	—Unverified
FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding	Mar 19, 2025	BenchmarkingMultiple-choice	—Unverified
SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes	Mar 19, 2025	3D Semantic SegmentationBenchmarking	—Unverified
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks	Mar 19, 2025	BenchmarkingDomain Adaptation	—Unverified
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available
Benchmarking Large Language Models for Handwritten Text Recognition	Mar 19, 2025	BenchmarkingHandwritten Text Recognition	—Unverified
Benchmarking Failures in Tool-Augmented Language Models	Mar 18, 2025	BenchmarkingText Generation	CodeCode Available
CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models	Mar 18, 2025	BenchmarkingSpatial Reasoning	CodeCode Available
COPA: Comparing the Incomparable to Explore the Pareto Front	Mar 18, 2025	AutoMLBenchmarking	—Unverified
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models	Mar 18, 2025	BenchmarkingChatbot	—Unverified
Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis	Mar 18, 2025	BenchmarkingDrug Response Prediction	CodeCode Available
Stable Virtual Camera: Generative View Synthesis with Diffusion Models	Mar 18, 2025	Benchmarking	—Unverified
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard	Mar 18, 2025	BenchmarkingHuman Dynamics	—Unverified
Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering	Mar 18, 2025	BenchmarkingDescriptive	—Unverified
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified

Show:10 25 50

← PrevPage 42 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified