Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2126–2150 of 5548 papers

Title	Date	Tasks	Status
Byzantine-Robust and Communication-Efficient Distributed Learning via Compressed Momentum Filtering	Sep 13, 2024	BenchmarkingBinary Classification	—Unverified
Benchmarking Adversarial Robustness of Image Shadow Removal with Shadow-adaptive Attacks	Mar 15, 2024	Adversarial AttackAdversarial Robustness	—Unverified
Analyzing Hong Kong's Legal Judgments from a Computational Linguistics point-of-view	May 4, 2023	BenchmarkingGraph Generation	—Unverified
Benchmarking Adversarial Robustness of Compressed Deep Learning Models	Aug 16, 2023	Adversarial RobustnessBenchmarking	—Unverified
Business as Rulesual: A Benchmark and Framework for Business Rule Flow Modeling with LLMs	May 24, 2025	Benchmarking	—Unverified
A Benchmarking Protocol for Pansharpening: Dataset, Preprocessing, and Quality Assessment	Jun 7, 2021	BenchmarkingPansharpening	—Unverified
Benchmarking Adversarial Robustness	Dec 26, 2019	Adversarial AttackAdversarial Robustness	—Unverified
Experimenting with robotic intra-logistics domains	Apr 26, 2018	Benchmarkingvalid	—Unverified
Building benchmarking frameworks for supporting replicability and reproducibility: spatial and textual analysis as an example	Jul 4, 2020	BenchmarkingPosition	—Unverified
Experimental robustness benchmark of quantum neural network on a superconducting quantum processor	May 22, 2025	Adversarial AttackAdversarial Robustness	—Unverified
Benchmarking Adversarially Robust Quantum Machine Learning at Scale	Nov 23, 2022	Adversarial AttackAdversarial Attack Detection	—Unverified
Analysis of modular CMA-ES on strict box-constrained problems in the SBOX-COST benchmarking suite	May 24, 2023	Benchmarking	—Unverified
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists	Jun 2, 2025	BenchmarkingForm	—Unverified
Building a Multivariate Time Series Benchmarking Datasets Inspired by Natural Language Processing (NLP)	Oct 14, 2024	BenchmarkingMulti-Task Learning	—Unverified
Benchmarking adversarial attacks and defenses for time-series data	Aug 30, 2020	Adversarial DefenseBenchmarking	—Unverified
Analysis of different disparity estimation techniques on aerial stereo image datasets	Oct 9, 2024	BenchmarkingDepth Estimation	—Unverified
Building a De-identification System for Real Swedish Clinical Text Using Pseudonymised Clinical Text	Nov 1, 2019	BenchmarkingDe-identification	—Unverified
Building a continuous benchmarking ecosystem in bioinformatics	Sep 23, 2024	Benchmarking	—Unverified
Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches	Apr 22, 2024	BenchmarkingDiversity	—Unverified
Benchmarking Adaptive Intelligence and Computer Vision on Human-Robot Collaboration	Sep 30, 2024	BenchmarkingIntent Detection	—Unverified
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer	May 24, 2023	BenchmarkingCross-Lingual Transfer	—Unverified
AT-Drone: Benchmarking Adaptive Teaming in Multi-Drone Pursuit	Feb 13, 2025	BenchmarkingEdge-computing	—Unverified
BuckTales : A multi-UAV dataset for multi-object tracking and re-identification of wild antelopes	Nov 11, 2024	BenchmarkingMulti-Object Tracking	—Unverified
Benchmarking Adaptative Variational Quantum Algorithms on QUBO Instances	Aug 3, 2023	Benchmarking	—Unverified
Analysis of DAWNBench, a Time-to-Accuracy Machine Learning Performance Benchmark	Jun 4, 2018	BenchmarkingBIG-bench Machine Learning	—Unverified

Show:10 25 50

← PrevPage 86 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified