Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3201–3250 of 5548 papers

Title	Date	Tasks	Status
Benchmarking projective simulation in navigation problems	Apr 23, 2018	BenchmarkingQ-Learning	—Unverified
Benchmarking Processor Performance by Multi-Threaded Machine Learning Algorithms	Sep 11, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
JuStRank: Benchmarking LLM Judges for System Ranking	Dec 12, 2024	Benchmarking	—Unverified
Benchmarking Pretrained Vision Embeddings for Near- and Duplicate Detection in Medical Images	Dec 12, 2023	BenchmarkingRetrieval	—Unverified
Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise Semantic Labeling	Jan 6, 2022	Aerial Scene ClassificationBenchmarking	—Unverified
AERF: Adaptive ensemble random fuzzy algorithm for anomaly detection in cloud computing	Jan 9, 2023	Anomaly DetectionBenchmarking	—Unverified
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models	Apr 17, 2025	BenchmarkingMath	—Unverified
Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks	May 24, 2024	BenchmarkingDecoder	—Unverified
KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making	Jul 31, 2024	BenchmarkingDecision Making	—Unverified
Keras Sig: Efficient Path Signature Computation on GPU in Keras 3	Jan 14, 2025	BenchmarkingC++ code	—Unverified
KetGPT -- Dataset Augmentation of Quantum Circuits using Transformers	Feb 20, 2024	Benchmarking	—Unverified
Benchmarking Pretrained Attention-based Models for Real-Time Recognition in Robot-Assisted Esophagectomy	Dec 4, 2024	AnatomyBenchmarking	—Unverified
Classification of Single-View Object Point Clouds	Dec 18, 2020	3D Object Classification6D Pose Estimation using RGB	—Unverified
Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design	Apr 14, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Post-Hoc Unknown-Category Detection in Food Recognition	Mar 24, 2025	BenchmarkingFood Recognition	—Unverified
Benchmarking Poisoning Attacks against Retrieval-Augmented Generation	May 24, 2025	BenchmarkingQuestion Answering	—Unverified
Benchmarking person re-identification approaches and training datasets for practical real-world implementations	Sep 29, 2021	BenchmarkingPedestrian Detection	—Unverified
Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations	Aug 3, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified
Knowledge-aware contrastive heterogeneous molecular graph learning	Feb 17, 2025	BenchmarkingContrastive Learning	—Unverified
AEON: Adaptive Estimation of Instance-Dependent In-Distribution and Out-of-Distribution Label Noise for Robust Learning	Jan 23, 2025	Benchmarkingimage-classification	—Unverified
TIIF-Bench: How Does Your T2I Model Follow Your Instructions?	Jun 2, 2025	BenchmarkingInstruction Following	—Unverified
Knowledge Sharing in Manufacturing using Large Language Models: User Evaluation and Model Benchmarking	Jan 10, 2024	BenchmarkingInformation Retrieval	—Unverified
3D Compositional Zero-shot Learning with DeCompositional Consensus	Nov 29, 2021	BenchmarkingCompositional Zero-Shot Learning	—Unverified
Benchmarking Performance of Deep Learning Model for Material Segmentation on Two HPC Systems	Jul 27, 2023	BenchmarkingGPU	—Unverified
Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges	Mar 6, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Pedestrian Odometry: The Brown Pedestrian Odometry Dataset (BPOD)	Dec 24, 2021	BenchmarkingPosition	—Unverified
Benchmarking PathCLIP for Pathology Image Analysis	Jan 5, 2024	BenchmarkingDecision Making	—Unverified
Kolmogorov-Arnold Network for Transistor Compact Modeling	Mar 19, 2025	Benchmarking	—Unverified
Koopman Theory-Inspired Method for Learning Time Advancement Operators in Unstable Flame Front Evolution	Dec 11, 2024	Benchmarking	—Unverified
Benchmarking Out-of-Distribution Generalization Capabilities of DNN-based Encoding Models for the Ventral Visual Cortex	Jun 16, 2024	BenchmarkingObject Recognition	—Unverified
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models	May 22, 2025	BenchmarkingDiagnostic	—Unverified
KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning	May 14, 2025	BenchmarkingMMLU	—Unverified
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences	Aug 26, 2024	Benchmarking	—Unverified
Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection	May 8, 2025	BenchmarkingOut-of-Distribution Generalization	—Unverified
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks	Mar 19, 2025	BenchmarkingDomain Adaptation	—Unverified
L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi	Nov 21, 2022	BenchmarkingMachine Translation	—Unverified
L3 Fusion: Fast Transformed Convolutions on CPUs	Dec 4, 2019	Benchmarking	—Unverified
Advocating Character Error Rate for Multilingual ASR Evaluation	Oct 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Label Anchored Contrastive Learning for Language Understanding	Apr 26, 2022	BenchmarkingContrastive Learning	—Unverified
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified
Label-Efficient Point Cloud Semantic Segmentation: An Active Learning Approach	Jan 18, 2021	Active LearningBenchmarking	—Unverified
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models	Dec 6, 2024	BenchmarkingDialogue Understanding	—Unverified
AI Cyber Risk Benchmark: Automated Exploitation Capabilities	Oct 29, 2024	BenchmarkingVulnerability Detection	—Unverified
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics	Nov 28, 2024	BenchmarkingDiversity	—Unverified
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	Oct 18, 2024	BenchmarkingFairness	—Unverified
Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection	Sep 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama	Mar 14, 2025	BenchmarkingMMLU	—Unverified
Benchmarking Online Sequence-to-Sequence and Character-based Handwriting Recognition from IMU-Enhanced Pens	Feb 14, 2022	BenchmarkingHandwriting Recognition	—Unverified
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time	Sep 20, 2024	BenchmarkingWorld Knowledge	—Unverified
Benchmarking Online Object Trackers for Underwater Robot Position Locking Applications	Feb 23, 2025	BenchmarkingObject Tracking	—Unverified

Show:10 25 50

← PrevPage 65 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified