Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2126–2150 of 5548 papers

Title	Date	Tasks	Status
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges	Mar 11, 2025	Benchmarking	CodeCode Available
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness	Mar 11, 2025	BenchmarkingCode Generation	—Unverified
Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies	Mar 10, 2025	BenchmarkingEthics	—Unverified
Skelite: Compact Neural Networks for Efficient Iterative Skeletonization	Mar 10, 2025	BenchmarkingComputational Efficiency	CodeCode Available
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models	Mar 10, 2025	AllBenchmarking	—Unverified
Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models	Mar 9, 2025	Benchmarking	—Unverified
General Scales Unlock AI Evaluation with Explanatory and Predictive Power	Mar 9, 2025	BenchmarkingSpecificity	—Unverified
Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems	Mar 9, 2025	Benchmarking	—Unverified
Steerable Pyramid Weighted Loss: Multi-Scale Adaptive Weighting for Semantic Segmentation	Mar 9, 2025	Autonomous DrivingBenchmarking	—Unverified
DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning	Mar 9, 2025	BenchmarkingDecision Making	CodeCode Available
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios	Mar 8, 2025	BenchmarkingDiagnostic	CodeCode Available
Removing Multiple Hybrid Adverse Weather in Video via a Unified Model	Mar 8, 2025	BenchmarkingVideo Restoration	—Unverified
UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces	Mar 8, 2025	Benchmarkingcounterfactual	—Unverified
Understanding the Limits of Lifelong Knowledge Editing in LLMs	Mar 7, 2025	Benchmarkingknowledge editing	—Unverified
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol	Mar 7, 2025	BenchmarkingBug fixing	—Unverified
FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance	Mar 7, 2025	ArticlesBenchmarking	—Unverified
Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders	Mar 7, 2025	BenchmarkingClick-Through Rate Prediction	—Unverified
Removing Geometric Bias in One-Class Anomaly Detection with Adaptive Feature Perturbation	Mar 7, 2025	Anomaly DetectionBenchmarking	CodeCode Available
Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination	Mar 6, 2025	Benchmarking	—Unverified
InfoSEM: A Deep Generative Model with Informative Priors for Gene Regulatory Network Inference	Mar 6, 2025	Benchmarking	—Unverified
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases	Mar 6, 2025	BenchmarkingDiagnostic	CodeCode Available
CLDyB: Towards Dynamic Benchmarking for Continual Learning with Pre-trained Models	Mar 6, 2025	BenchmarkingContinual Learning	CodeCode Available
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions	Mar 6, 2025	BenchmarkingHumanEval	CodeCode Available
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified

Show:10 25 50

← PrevPage 86 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified