Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3925 of 5548 papers

Title	Date	Tasks	Status
Benchmarking bias: Expanding clinical AI model card to incorporate bias reporting of social and non-social factors	Nov 21, 2023	Benchmarking	—Unverified
Benchmarking Bayesian Deep Learning on Diabetic Retinopathy Detection Tasks	Nov 23, 2022	BenchmarkingDeep Learning	—Unverified
Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection	Jul 28, 2024	BenchmarkingFake News Detection	—Unverified
Off-policy Evaluation for Payments at Adyen	Jan 15, 2025	BenchmarkingDecision Making	—Unverified
Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation	Jul 11, 2023	BenchmarkingCausal Discovery	—Unverified
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications	May 20, 2025	BenchmarkingMachine Translation	—Unverified
OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics	Jun 12, 2025	Benchmarking	—Unverified
IBB Traffic Graph Data: Benchmarking and Road Traffic Prediction Model	Aug 2, 2024	BenchmarkingFeature Engineering	—Unverified
Benchmarking Azerbaijani Neural Machine Translation	Jul 29, 2022	BenchmarkingDomain Generalization	—Unverified
Benchmarking a wide range of optimisers for solving the Fermi-Hubbard model using the variational quantum eigensolver	Nov 20, 2024	Benchmarking	—Unverified
Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking	Jun 6, 2024	6D Pose Estimation using RGBBenchmarking	—Unverified
Benchmarking AutoML Frameworks for Disease Prediction Using Medical Claims	Jul 22, 2021	AutoMLBenchmarking	—Unverified
Omnibenchmark (alpha) for continuous and open benchmarking in bioinformatics	Sep 25, 2024	Benchmarking	—Unverified
Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics	Feb 18, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions	Dec 9, 2024	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Automated Review Response Generation for the Hospitality Domain	Dec 1, 2020	BenchmarkingDomain Adaptation	—Unverified
Benchmarking Automated Machine Learning Methods for Price Forecasting Applications	Apr 28, 2023	AutoMLBenchmarking	—Unverified
OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB	Oct 9, 2024	BenchmarkingDiversity	—Unverified
On Benchmarking Code LLMs for Android Malware Analysis	Apr 1, 2025	BenchmarkingMalware Analysis	—Unverified
On Benchmarking Iris Recognition within a Head-mounted Display for AR/VR Application	Oct 20, 2020	BenchmarkingIris Recognition	—Unverified
On Continual Model Refinement in Out-of-Distribution Data Streams	May 4, 2022	BenchmarkingContinual Learning	—Unverified
Active Learning for Community Detection in Stochastic Block Models	May 8, 2016	Active LearningBenchmarking	—Unverified
On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events	Dec 9, 2024	BenchmarkingComputational Efficiency	—Unverified
Benchmarking Audio Visual Segmentation for Long-Untrimmed Videos	Jan 1, 2024	Benchmarking	—Unverified
On Distribution Grid Optimal Power Flow Development and Integration	Dec 9, 2022	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 157 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified