Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3876–3900 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies	Mar 10, 2025	BenchmarkingEthics	—Unverified
Novel Real-Time EMT-TS Modeling Architecture for Feeder Blackstart Simulations	Nov 19, 2021	Benchmarking	—Unverified
NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics	Jun 16, 2024	Benchmarkingde novo peptide sequencing	—Unverified
Now you see me: evaluating performance in long-term visual tracking	Apr 19, 2018	BenchmarkingVisual Tracking	—Unverified
CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs	Sep 9, 2024	Benchmarkingknowledge editing	—Unverified
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition	Jun 5, 2023	Arabic Speech RecognitionBenchmarking	—Unverified
Transactive Local Energy Markets Enable Community-Level Resource Coordination Using Individual Rewards	Mar 22, 2024	Benchmarkingenergy management	—Unverified
Benchmarking Chest X-ray Diagnosis Models Across Multinational Datasets	May 21, 2025	BenchmarkingDiagnostic	—Unverified
NTP : A Neural Network Topology Profiler	May 22, 2019	BenchmarkingQuantization	—Unverified
Benchmarking changepoint detection algorithms on cardiac time series	Apr 16, 2024	BenchmarkingChange Point Detection	—Unverified
Numerical Investigation of Sequence Modeling Theory using Controllable Memory Functions	Jun 6, 2025	BenchmarkingState Space Models	—Unverified
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models	May 18, 2023	Benchmarking	—Unverified
NUMOSIM: A Synthetic Mobility Dataset with Anomaly Detection Benchmarks	Sep 4, 2024	Anomaly DetectionBenchmarking	—Unverified
NuwaTS: a Foundation Model Mending Every Incomplete Time Series	May 24, 2024	BenchmarkingContrastive Learning	—Unverified
Benchmarking CFAR and CNN-based Peak Detection Algorithms in ISAC under Hardware Impairments	May 16, 2025	BenchmarkingIntegrated sensing and communication	—Unverified
Benchmarking Causal Study to Interpret Large Language Models for Source Code	Aug 23, 2023	BenchmarkingCausal Inference	—Unverified
Object Detection based on LIDAR Temporal Pulses using Spiking Neural Networks	Oct 29, 2018	Autonomous DrivingBenchmarking	—Unverified
Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis	Mar 24, 2025	BenchmarkingImage Reconstruction	—Unverified
Benchmarking Bonus-Based Exploration Methods on the Arcade Learning Environment	Aug 6, 2019	Atari GamesBenchmarking	—Unverified
Benchmarking BioRelEx for Entity Tagging and Relation Extraction	May 31, 2020	BenchmarkingRelation	—Unverified
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation	Apr 15, 2025	BenchmarkingQuestion Answering	—Unverified
OctoPath: An OcTree Based Self-Supervised Learning Approach to Local Trajectory Planning for Mobile Robots	Jun 2, 2021	BenchmarkingDecoder	—Unverified
Benchmarking Biomedical Nested NER and Relation Extraction Models	Oct 16, 2021	BenchmarkingNER	—Unverified
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking	Jul 19, 2024	BenchmarkingMulti-Object Tracking	—Unverified
Benchmarking Bias in Large Language Models during Role-Playing	Nov 1, 2024	BenchmarkingFairness	—Unverified

Show:10 25 50

← PrevPage 156 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified