Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4051–4075 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Adversarial Robustness of Image Shadow Removal with Shadow-adaptive Attacks	Mar 15, 2024	Adversarial AttackAdversarial Robustness	—Unverified
OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents	Jun 19, 2025	Benchmarking	—Unverified
oTTC: Object Time-to-Contact for Motion Estimation in Autonomous Driving	May 13, 2024	AttributeAutonomous Driving	—Unverified
Benchmarking Adversarial Robustness of Compressed Deep Learning Models	Aug 16, 2023	Adversarial RobustnessBenchmarking	—Unverified
Tropical Attention: Neural Algorithmic Reasoning for Combinatorial Algorithms	May 22, 2025	Adversarial AttackBenchmarking	—Unverified
Out of Distribution Performance of State of Art Vision Model	Jan 25, 2023	Benchmarking	—Unverified
Benchmarking Adversarial Robustness	Dec 26, 2019	Adversarial AttackAdversarial Robustness	—Unverified
Overconfident Oracles: Limitations of In Silico Sequence Design Benchmarking	Feb 24, 2025	Benchmarking	—Unverified
Overview and practical recommendations on using Shapley Values for identifying predictive biomarkers via CATE modeling	May 2, 2025	Benchmarking	—Unverified
Overview of Todai Robot Project and Evaluation Framework of its NLP-based Problem Solving	May 1, 2014	Benchmarking	—Unverified
Benchmarking Adversarially Robust Quantum Machine Learning at Scale	Nov 23, 2022	Adversarial AttackAdversarial Attack Detection	—Unverified
OVQA: A Clinically Generated Visual Question Answering Dataset	Jul 7, 2022	BenchmarkingMedical Visual Question Answering	—Unverified
Paddy Doctor: A Visual Image Dataset for Automated Paddy Disease Classification and Benchmarking	May 23, 2022	BenchmarkingClassification	—Unverified
Benchmarking adversarial attacks and defenses for time-series data	Aug 30, 2020	Adversarial DefenseBenchmarking	—Unverified
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms	Oct 5, 2024	BenchmarkingGPU	—Unverified
Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches	Apr 22, 2024	BenchmarkingDiversity	—Unverified
Benchmarking Adaptive Intelligence and Computer Vision on Human-Robot Collaboration	Sep 30, 2024	BenchmarkingIntent Detection	—Unverified
Benchmarking Adaptative Variational Quantum Algorithms on QUBO Instances	Aug 3, 2023	Benchmarking	—Unverified
Paradigm Shift in Sustainability Disclosure Analysis: Empowering Stakeholders with CHATREPORT, a Language Model-Based Tool	Jun 27, 2023	BenchmarkingLanguage Modeling	—Unverified
Para-Lane: Multi-Lane Dataset Registering Parallel Scans for Benchmarking Novel View Synthesis	Feb 21, 2025	3DGSAutonomous Driving	—Unverified
Benchmarking Active Learning Strategies for Materials Optimization and Discovery	Apr 12, 2022	Active LearningBenchmarking	—Unverified
A critical analysis of metrics used for measuring progress in artificial intelligence	Aug 6, 2020	Benchmarking	—Unverified
True Online TD-Replan(lambda) Achieving Planning through Replaying	Jan 31, 2025	Benchmarking	—Unverified
Benchmarking Active Learning for NILM	Nov 24, 2024	Active LearningBenchmarking	—Unverified
Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles	Jan 13, 2025	ArticlesBenchmarking	—Unverified

Show:10 25 50

← PrevPage 163 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified