Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1826–1850 of 5548 papers

Title	Date	Tasks	Status
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models	May 16, 2025	BenchmarkingDecision Making	—Unverified
Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges	May 16, 2025	BenchmarkingState Estimation	CodeCode Available
TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs	May 16, 2025	BenchmarkingQuestion Answering	CodeCode Available
ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding	May 15, 2025	BenchmarkingSemantic Communication	—Unverified
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available
JointDistill: Adaptive Multi-Task Distillation for Joint Depth Estimation and Scene Segmentation	May 15, 2025	BenchmarkingDepth Estimation	—Unverified
What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs	May 15, 2025	AllBenchmarking	—Unverified
Real-World fNIRS-Based Brain-Computer Interfaces: Benchmarking Deep Learning and Classical Models in Interactive Gaming	May 15, 2025	BenchmarkingData Augmentation	—Unverified
DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs	May 15, 2025	BenchmarkingFairness	—Unverified
Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization	May 15, 2025	BenchmarkingClustering	—Unverified
GNN-Suite: a Graph Neural Network Benchmarking Framework for Biomedical Informatics	May 15, 2025	BenchmarkingGraph Neural Network	CodeCode Available
On the Evaluation of Engineering Artificial General Intelligence	May 15, 2025	Benchmarking	—Unverified
Do LLMs Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M	May 15, 2025	BenchmarkingMemorization	CodeCode Available
WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models	May 14, 2025	Benchmarking	—Unverified
VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts	May 14, 2025	BenchmarkingForm	—Unverified
RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo	May 14, 2025	BenchmarkingOptical Flow Estimation	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
BioVFM-21M: Benchmarking and Scaling Self-Supervised Vision Foundation Models for Biomedical Image Analysis	May 14, 2025	BenchmarkingComputational Efficiency	CodeCode Available
ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation	May 14, 2025	BenchmarkingDeformable Object Manipulation	—Unverified
TARGET: Benchmarking Table Retrieval for Generative Tasks	May 14, 2025	BenchmarkingRepresentation Learning	—Unverified
A Standardized Benchmark Set of Clustering Problem Instances for Comparing Black-Box Optimizers	May 14, 2025	BenchmarkingClustering	—Unverified
How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference	May 14, 2025	Benchmarking	—Unverified
Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora	May 13, 2025	BenchmarkingDiagnostic	CodeCode Available
ExEBench: Benchmarking Foundation Models on Extreme Earth Events	May 13, 2025	BenchmarkingManagement	CodeCode Available

Show:10 25 50

← PrevPage 74 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified