Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2150 of 5548 papers

Title	Date	Tasks	Status
VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination	Mar 17, 2025	BenchmarkingCode Generation	—Unverified
Advancing Human-Machine Teaming: Concepts, Challenges, and Applications	Mar 16, 2025	BenchmarkingDecision Making	—Unverified
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era	Mar 16, 2025	BenchmarkingImage Captioning	—Unverified
Dataset Properties Shape the Success of Neuroimaging-Based Patient Stratification: A Benchmarking Analysis Across Clustering Algorithms	Mar 15, 2025	BenchmarkingBrain Morphometry	—Unverified
Language Models for Automated Classification of Brain MRI Reports and Growth Chart Generation	Mar 15, 2025	Benchmarking	—Unverified
Genicious: Contextual Few-shot Prompting for Insights Discovery	Mar 15, 2025	BenchmarkingDecision Making	—Unverified
Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning	Mar 14, 2025	BenchmarkingNavigate	—Unverified
InverseBench: Benchmarking Plug-and-Play Diffusion Priors for Inverse Problems in Physical Sciences	Mar 14, 2025	BenchmarkingImage Restoration	—Unverified
RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation	Mar 14, 2025	Benchmarking	—Unverified
Challenges and Advancements in Modeling Shock Fronts with Physics-Informed Neural Networks: A Review and Benchmarking Study	Mar 14, 2025	Benchmarking	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified
A Benchmarking Study of Vision-based Robotic Grasping Algorithms	Mar 14, 2025	BenchmarkingRobotic Grasping	CodeCode Available
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning	Mar 14, 2025	BenchmarkingRelational Reasoning	—Unverified
Enhancing Hand Palm Motion Gesture Recognition by Eliminating Reference Frame Bias via Frame-Invariant Similarity Measures	Mar 14, 2025	BenchmarkingGesture Recognition	—Unverified
Heterogeneous graph neural networks for species distribution modeling	Mar 14, 2025	Benchmarking	—Unverified
DarkBench: Benchmarking Dark Patterns in Large Language Models	Mar 13, 2025	Benchmarking	—Unverified
ExtremeAIGC: Benchmarking LMM Vulnerability to AI-Generated Extremist Content	Mar 13, 2025	BenchmarkingImage Generation	—Unverified
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified
MarineGym: A High-Performance Reinforcement Learning Platform for Underwater Robotics	Mar 12, 2025	BenchmarkingGPU	—Unverified
CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding	Mar 12, 2025	BenchmarkingEmotion Recognition	—Unverified
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models	Mar 12, 2025	BenchmarkingFairness	—Unverified
Integration of nested cross-validation, automated hyperparameter optimization, high-performance computing to reduce and quantify the variance of test performance estimation of deep learning models	Mar 11, 2025	BenchmarkingHyperparameter Optimization	CodeCode Available
Ev-Layout: A Large-scale Event-based Multi-modal Dataset for Indoor Layout Estimation and Tracking	Mar 11, 2025	Benchmarking	—Unverified
Comprehensive Benchmarking of Machine Learning Methods for Risk Prediction Modelling from Large-Scale Survival Data: A UK Biobank Study	Mar 11, 2025	Benchmarking	—Unverified
Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges	Mar 11, 2025	Benchmarking	CodeCode Available
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness	Mar 11, 2025	BenchmarkingCode Generation	—Unverified
Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies	Mar 10, 2025	BenchmarkingEthics	—Unverified
Skelite: Compact Neural Networks for Efficient Iterative Skeletonization	Mar 10, 2025	BenchmarkingComputational Efficiency	CodeCode Available
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models	Mar 10, 2025	AllBenchmarking	—Unverified
Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models	Mar 9, 2025	Benchmarking	—Unverified
General Scales Unlock AI Evaluation with Explanatory and Predictive Power	Mar 9, 2025	BenchmarkingSpecificity	—Unverified
Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems	Mar 9, 2025	Benchmarking	—Unverified
Steerable Pyramid Weighted Loss: Multi-Scale Adaptive Weighting for Semantic Segmentation	Mar 9, 2025	Autonomous DrivingBenchmarking	—Unverified
DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning	Mar 9, 2025	BenchmarkingDecision Making	CodeCode Available
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios	Mar 8, 2025	BenchmarkingDiagnostic	CodeCode Available
Removing Multiple Hybrid Adverse Weather in Video via a Unified Model	Mar 8, 2025	BenchmarkingVideo Restoration	—Unverified
UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces	Mar 8, 2025	Benchmarkingcounterfactual	—Unverified
Understanding the Limits of Lifelong Knowledge Editing in LLMs	Mar 7, 2025	Benchmarkingknowledge editing	—Unverified
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol	Mar 7, 2025	BenchmarkingBug fixing	—Unverified
FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance	Mar 7, 2025	ArticlesBenchmarking	—Unverified
Benchmarking LLMs in Recommendation Tasks: A Comparative Evaluation with Conventional Recommenders	Mar 7, 2025	BenchmarkingClick-Through Rate Prediction	—Unverified
Removing Geometric Bias in One-Class Anomaly Detection with Adaptive Feature Perturbation	Mar 7, 2025	Anomaly DetectionBenchmarking	CodeCode Available
Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination	Mar 6, 2025	Benchmarking	—Unverified
InfoSEM: A Deep Generative Model with Informative Priors for Gene Regulatory Network Inference	Mar 6, 2025	Benchmarking	—Unverified
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases	Mar 6, 2025	BenchmarkingDiagnostic	CodeCode Available
CLDyB: Towards Dynamic Benchmarking for Continual Learning with Pre-trained Models	Mar 6, 2025	BenchmarkingContinual Learning	CodeCode Available
ThrowBench: Benchmarking LLMs by Predicting Runtime Exceptions	Mar 6, 2025	BenchmarkingHumanEval	CodeCode Available
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified

Show:10 25 50

← PrevPage 43 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified