Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3226–3250 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Pedestrian Odometry: The Brown Pedestrian Odometry Dataset (BPOD)	Dec 24, 2021	BenchmarkingPosition	—Unverified
Benchmarking PathCLIP for Pathology Image Analysis	Jan 5, 2024	BenchmarkingDecision Making	—Unverified
Kolmogorov-Arnold Network for Transistor Compact Modeling	Mar 19, 2025	Benchmarking	—Unverified
Koopman Theory-Inspired Method for Learning Time Advancement Operators in Unstable Flame Front Evolution	Dec 11, 2024	Benchmarking	—Unverified
Benchmarking Out-of-Distribution Generalization Capabilities of DNN-based Encoding Models for the Ventral Visual Cortex	Jun 16, 2024	BenchmarkingObject Recognition	—Unverified
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models	May 22, 2025	BenchmarkingDiagnostic	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences	Aug 26, 2024	Benchmarking	—Unverified
Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection	May 8, 2025	BenchmarkingOut-of-Distribution Generalization	—Unverified
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks	Mar 19, 2025	BenchmarkingDomain Adaptation	—Unverified
L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi	Nov 21, 2022	BenchmarkingMachine Translation	—Unverified
L3 Fusion: Fast Transformed Convolutions on CPUs	Dec 4, 2019	Benchmarking	—Unverified
Advocating Character Error Rate for Multilingual ASR Evaluation	Oct 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Label Anchored Contrastive Learning for Language Understanding	Apr 26, 2022	BenchmarkingContrastive Learning	—Unverified
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified
Label-Efficient Point Cloud Semantic Segmentation: An Active Learning Approach	Jan 18, 2021	Active LearningBenchmarking	—Unverified
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models	Dec 6, 2024	BenchmarkingDialogue Understanding	—Unverified
AI Cyber Risk Benchmark: Automated Exploitation Capabilities	Oct 29, 2024	BenchmarkingVulnerability Detection	—Unverified
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics	Nov 28, 2024	BenchmarkingDiversity	—Unverified
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	Oct 18, 2024	BenchmarkingFairness	—Unverified
Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection	Sep 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified
Benchmarking Online Sequence-to-Sequence and Character-based Handwriting Recognition from IMU-Enhanced Pens	Feb 14, 2022	BenchmarkingHandwriting Recognition	—Unverified
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time	Sep 20, 2024	BenchmarkingWorld Knowledge	—Unverified
Benchmarking Online Object Trackers for Underwater Robot Position Locking Applications	Feb 23, 2025	BenchmarkingObject Tracking	—Unverified

Show:10 25 50

← PrevPage 130 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified